#AI 模型
【CES 2026】突發開源!NVIDIA 宣佈推出用於物理 AI 的全新開放模型、框架和 AI 基礎設施之深度洞察!
引言:CES 2026 引爆行業革命,機器人開發的“ChatGPT時刻”正式到來太平洋時間2026年1月5日,拉斯維加斯國際消費電子展(CES)現場,NVIDIA創始人兼首席執行長黃仁勳的一句“機器人開發的ChatGPT時刻已然到來”,為全球機器人產業定下了新的發展基調。當天,NVIDIA正式宣佈推出用於物理AI的全新開放模型、框架和AI基礎設施,同時展示了Boston Dynamics、Caterpillar、Franka Robotics等全球領先企業基於其技術打造的多款新型機器人與自主機器,涵蓋移動機械臂、人形機器人、工業作業裝置等多個品類。這一系列發佈並非孤立的技術更新,而是NVIDIA對機器人產業發展瓶頸的精準突破,更是對未來“專家級通用”機器人開發範式的全面重構。長期以來,機器人產業始終面臨三大核心痛點:一是缺乏理解物理世界的通用智能,傳統機器人依賴預設程序,難以應對動態環境變化;二是開發流程分散複雜,模擬與現實存在巨大鴻溝,技術迭代效率低下;三是軟硬體協同不足,AI算力與能效難以匹配機器人輕量化、高即時性的應用需求。NVIDIA此次推出的全端技術體系——從Cosmos與GR00T開放模型,到Isaac Lab-Arena模擬框架與OSMO計算框架,再到Blackwell架構驅動的Jetson T4000硬體模組,形成了覆蓋“模型-框架-硬體-生態”的完整解決方案,旨在打通機器人開發的全生命周期,加速新一代AI驅動機器人的規模化落地。本文將從技術核心解析、產業鏈重構影響、應用場景突破、產業趨勢展望四大維度,深度拆解NVIDIA物理AI技術體系的核心價值與行業變革意義。一、技術核心解析:物理AI如何重構機器人的“認知與行動”能力黃仁勳所言的“機器人開發的ChatGPT時刻”,核心在於物理AI技術的突破性進展。不同於傳統AI聚焦數字世界的資訊處理,物理AI的核心目標是讓機器理解物理世界的運行規律,具備感知、推理、規劃與行動的閉環能力,實現從“執行指令”到“理解並決策”的跨越。NVIDIA此次發佈的技術體系,正是圍繞這一核心目標建構的全端解決方案,其技術核心可拆解為“感知-推理-行動-訓練”四大核心模組。1.1 核心模型 Cosmos與GR00T建構物理AI的“認知大腦”要實現機器人對物理世界的理解,首先需要建構能夠建模物理規律、融合多模態資訊的基礎模型。NVIDIA此次推出的Cosmos系列與GR00T N1.6模型,分別解決了“物理世界認知”與“人形機器人全身控制”兩大核心問題,共同構成了物理AI的“認知大腦”。1.1.1 Cosmos系列模型:賦予機器人“物理直覺”傳統機器人的最大短板在於缺乏“物理直覺”——無法預判環境變化對自身動作的影響,也難以理解物體的物理屬性(如重力、摩擦力、材質特性等)。這導致機器人在執行簡單任務時,一旦遇到未預設的場景(如地面油污、物體重量變化),就容易出現失穩或任務失敗的情況。Cosmos系列模型的核心價值,正是通過生成式AI技術,讓機器人內化物理世界的基本規律,具備即時預測、跨場景遷移與多步推理的能力。Cosmos系列包含三大核心模型,形成了“感知-預測-推理”的認知閉環:NVIDIA Cosmos Transfer 2.5:作為轉換模型,其核心功能是打通模擬與現實的“域鴻溝”。傳統機器人訓練依賴大量真實場景資料,成本高昂且周期漫長,而模擬資料又因與現實環境差異過大,導致訓練出的模型難以直接遷移。Cosmos Transfer 2.5支援空間條件控制的風格遷移,可將Isaac Sim中的合成資料轉換為帶有真實世界噪聲、光照幹擾、鏡頭畸變的等效資料,同時保持物理參數不變;反之,也能將真實世界的稀疏資料增強為多樣化的模擬場景,大幅提升模型從模擬到現實的零樣本遷移成功率。相較於前代模型,其體積更小、運行更快,生成質量顯著提升,域間遷移的誤差累積大幅減少。NVIDIA Cosmos Predict 2.5:聚焦物理世界的即時預測,解決機器人的“快思考”問題。該模型融合Text 2 World、Image 2 World、Video 2 World等生成能力,可根據文字、圖像或視訊輸入,生成連貫的環境演化序列。與傳統電腦視覺模型逐幀處理像素不同,Cosmos Predict 2.5直接對物理狀態的演化軌跡進行推演,能夠在毫秒級內預測環境變化對機器人動作的影響。例如在“機械臂倒水”任務中,傳統方法需要複雜的流體動力學方程求解,難以滿足即時性要求;而Cosmos Predict 2.5通過學習海量物理視訊資料,可即時預測下一時刻的流體分佈與不確定性,為控製器提供“是否會濺出”的預判依據,支撐機器人的動態微調。NVIDIA Cosmos Reason 2:作為開放推理視覺語言模型(VLM),負責機器人的“慢思考”——跨時間尺度的理解、推理與決策。該模型引入了大語言模型中成熟的思維鏈(CoT)機制,並將其擴展到視覺-動作領域,能夠直接從圖像中理解語義與空間關係,完成多步任務分解與因果推理。在“清理廚房檯面”這類複雜任務中,傳統規劃器依賴預定義的PDDL(規劃域定義語言),難以應對場景變化;而Cosmos Reason 2可自主分解任務(如“先移開水杯→再擦拭油污→最後整理餐具”),並通過反事實推理預判不同動作的後果,主動規避高風險操作(如避免碰撞易碎物品)。這種將感知、推理與決策緊密耦合的能力,有效解決了傳統模組化架構中資訊層層傳遞的損耗問題。三者的協同邏輯清晰:Cosmos Predict 2.5提供即時物理狀態預測,支撐毫秒級的動態反饋;Cosmos Reason 2負責長周期的任務規劃與風險預判;Cosmos Transfer 2.5則打通模擬與現實的資料通道,為前兩者的訓練提供高品質資料支撐,形成“預測-推理-資料迭代”的認知閉環。1.1.2 GR00T N1.6:解鎖人形機器人的“全身控制”能力如果說Cosmos系列模型解決了機器人“認知世界”的問題,那麼Isaac GR00T N1.6則聚焦於“如何行動”,特別是為人形機器人提供開放式的推理視覺語言行動(VLA)模型,實現全身動作的精準控制與上下文理解。人形機器人的控制難度遠超傳統機械臂,其擁有數十個自由度,需要兼顧平衡、協調、精準操作等多重目標,傳統控制方法難以實現複雜動作的靈活適配。GROOT N1.6的核心突破在於兩大技術創新:一是採用MoE(混合專家)架構,實現“通專融合”的控制能力。該架構包含多個獨立的“專家”子網路,在處理不同任務時啟動對應的專家模組——例如理解自然語言指令時啟動“通用語言專家”,執行精密銲接時啟動“運動控制專家”,既保證了通用任務的適應性,又提升了專項任務的精準度。二是深度整合Cosmos Reason 2模型,強化上下文理解與推理能力。通過融合視覺語言推理與動作控制,GR00T N1.6可直接將人類自然語言指令轉換為全身協調的動作序列,例如將“把桌子上的檔案遞給我”拆解為“移動至桌前→識別檔案位置→調整姿態→抓取檔案→精準遞出”的連貫動作,無需人工編寫複雜的運動控製程序。目前,Franka Robotics、NEURA Robotics、Humanoid等企業已開始利用GR00T賦能的工作流,進行機器人新行為的模擬、訓練與驗證。Salesforce則通過整合Agentforce、Cosmos Reason與NVIDIA Blueprint,對機器人採集的視訊片段進行分析,將事件解決時間縮短了50%,充分驗證了該模型在提升任務效率方面的核心價值。1.2 支撐框架 Isaac Lab-Arena與OSMO打通開發全流程物理AI模型的落地,離不開高效的開發與訓練框架支撐。長期以來,機器人開發麵臨兩大流程痛點:一是模擬評估體系分散,基準測試依賴人工操作,難以實現規模化驗證;二是端到端工作流複雜,需要跨工作站、雲端等異構計算資源,協同難度大,開發周期漫長。NVIDIA此次發佈的Isaac Lab-Arena開源模擬框架與OSMO雲原生計算框架,正是針對這兩大痛點的精準解決方案,旨在實現“模擬-訓練-評估-部署”的全流程閉環。1.2.1 Isaac Lab-Arena:標準化模擬評估的“協作平台”模擬訓練是機器人開發的核心環節,其質量直接決定了機器人在真實環境中的性能。但當前行業缺乏統一的模擬評估標準,不同開發者採用不同的測試體系,導致技術成果難以對比,且模擬場景與真實環境的差異過大,大幅降低了訓練效率。Isaac Lab-Arena的核心目標是建構一個開放原始碼的協作系統,實現大規模機器人策略評估與基準測試的標準化。該框架的核心優勢體現在三個方面:一是模組化設計,其評估層與任務層通過與光輪智能的深度合作完成建構,支援靈活配置不同任務場景與評估指標;二是多基準相容,可直接對接Libero、Robocasa等業界領先的基準測試體系,實現測試流程的標準化,確保機器人技能在部署至物理硬體前具備穩健性與可靠性;三是開源協作,現已在GitHub上公開發佈,開發者可基於該框架共享測試場景、驗證演算法效果,加速技術迭代。1.2.2 OSMO:跨環境協同的“開髮指揮中心”機器人開發涉及合成資料生成、模型訓練、軟體在環測試等多個環節,需要跨越工作站、邊緣裝置、混合雲等多種計算環境,傳統開發模式下,各環節相互獨立,資源調度複雜,嚴重影響開發效率。OSMO作為雲原生編排框架,將機器人開發整合至單一易用的命令中心,實現了全流程的高效協同。OSMO的核心功能包括:一是跨環境工作流定義,開發者可通過統一介面,定義覆蓋多計算環境的工作流,實現合成資料生成、模型訓練、測試驗證的自動化執行;二是資源智能調度,根據不同環節的算力需求,自動分配工作站、雲端等資源,提升資源利用率;三是快速整合適配,現已開放使用,並被Hexagon Robotics等企業採用,同時整合至Microsoft Azure Robotics Accelerator工具鏈中,大幅降低了開發者的接入門檻。1.3 硬體基石 Blackwell架構驅動的邊緣AI算力革命物理AI模型的即時運行,需要強大的邊緣AI算力支撐。機器人尤其是人形機器人、移動作業裝置等,對硬體的輕量化、低功耗、高即時性提出了嚴苛要求。傳統邊緣計算模組難以平衡算力與能效,無法滿足複雜物理AI模型的運行需求。NVIDIA此次發佈的Jetson T4000模組與IGX Thor工業邊緣平台,基於Blackwell架構打造,實現了算力與能效的跨越式提升,為物理AI的邊緣落地提供了核心硬體支撐。1.3.1 Jetson T4000:機器人的“高效小腦”Jetson T4000是Blackwell架構下放至邊緣端的首款機器人專用計算模組,現已正式發售,千片起訂量下單價為1999美元,為Jetson Orin客戶提供了高性價比的升級路徑。相較於上一代Jetson AGX Orin,該模組在核心性能上實現了全方位突破:Jetson T4000的核心突破在於NVFP4 4位浮點精度推理技術。對於物理AI應用而言,感知環節的精度可適當降低,但決策與控制的即時性至關重要。該技術允許機器人在邊緣端直接運行複雜的VLA模型,無需依賴不穩定的雲端網路,既保證了即時響應,又提升了運行安全性。在70瓦的可配置功率範圍內,其可提供1200 FP4 TFLOPS的算力,足以支撐Cosmos與GR00T模型的即時運行,是能耗受限型自主系統的理想選擇。1.3.2 IGX Thor:工業邊緣的“安全算力核心”除了面向通用機器人的Jetson T4000,NVIDIA還宣佈IGX Thor將於2026年1月晚些時候上市,聚焦工業邊緣場景,提供高性能AI計算與功能安全保障。該平台將機器人技術擴展到工業生產、建築採礦等複雜邊緣環境,具備企業級軟體支援能力,可滿足工業級應用對穩定性、安全性的嚴苛要求。目前,AAEON、Advantech、ADLINK等眾多合作夥伴已推出搭載Thor的系統,覆蓋邊緣AI、機器人和嵌入式應用等多個領域。1.4 生態協同 NVIDIA與Hugging Face打通開源開發鏈路技術的規模化落地離不開生態的支撐。當前,機器人已成為Hugging Face平台上增長最快的領域,而NVIDIA的開放模型與資料集在該平台的下載量持續領先。為進一步加速開源物理AI的開發,NVIDIA與Hugging Face達成深度合作,將開放原始碼的Isaac與GR00T技術整合到領先的LeRobot開源機器人框架中,建構了“軟硬體一體化”的開源開發生態。此次合作的核心價值在於打通了兩大開發者社區:NVIDIA的200萬機器人開發者與Hugging Face的1300萬全球AI開發者,實現了技術、工具與資源的雙向流動。具體來看,GR00T N系列模型與Isaac Lab-Arena已正式上線LeRobot庫,開發者可直接基於該框架進行模型微調和策略評估;同時,Hugging Face開放原始碼的Reachy 2人形機器人與NVIDIA Jetson Thor機器人電腦實現完全互操作,可運行包括GR00T N1.6在內的任何VLA模型;Reachy Mini桌面機器人則與NVIDIA DGX Spark實現相容,支援開發者基於NVIDIA大語言模型及本地運行的語音、電腦視覺開放模型打造自訂體驗。這種開源生態的協同,大幅降低了機器人開發的門檻,讓中小企業與個人開發者能夠快速接入頂尖的物理AI技術,加速了創新應用的孵化。正如Hugging Face首席技術官所言:“與NVIDIA的合作將徹底改變開源機器人開發的格局,讓更多開發者能夠聚焦應用創新,而非基礎技術建構。”二、產業鏈重構:從“碎片化”到“生態化”的全鏈路變革機器人產業鏈傳統上呈現“上游高壁壘、中游低利潤、下游分散化”的碎片化格局。上游核心零部件(控製器、伺服系統、減速器)佔據工業機器人總成本的60%以上,利潤分配比例超過40%,但技術門檻高,長期被海外企業壟斷;中游整機製造依賴上游零部件,同質化競爭激烈,毛利率普遍偏低;下游應用場景分散,不同行業的需求差異大,難以形成規模化效應。NVIDIA此次發佈的全端技術體系,將通過“技術賦能-生態整合-成本最佳化”三大路徑,重構機器人產業鏈的價值分配與協作模式。2.1 上游核心零部件 AI驅動的技術升級與國產化機遇上游核心零部件是機器人產業的“卡脖子”環節,也是利潤最集中的領域。NVIDIA的物理AI技術體系,將對上游零部件產業產生兩大關鍵影響:一是推動零部件的“智能化升級”,二是為國產零部件企業提供彎道超車的機遇。在智能化升級方面,傳統零部件以“高精度執行”為核心目標,而物理AI時代的零部件需要具備“感知-反饋-協同”的智能能力。例如,伺服電機需要即時採集運動資料,並與AI模型協同調整參數,以適應動態環境下的動作需求;減速器則需要具備更高的動態響應速度,配合機器人的即時微調動作。NVIDIA的GR00T模型與Jetson硬體平台,為零部件的智能化升級提供了標準介面與算力支撐,推動上游零部件從“被動執行”向“主動協同”轉變。在國產化機遇方面,長期以來,國內零部件企業受制於核心技術不足,難以與海外巨頭競爭。而NVIDIA的開放模型與框架,降低了零部件企業的智能化研發門檻。例如,國內控製器企業可基於NVIDIA的CUDA架構與GR00T模型,快速開發具備物理AI能力的智能控製器,無需從零建構演算法體系。伺服系統企業可借助Jetson平台的算力,實現運動資料的即時分析與參數最佳化。同時,隨著國內機器人產業政策的支援(如廣西出台的機器人產業發展政策,對核心零部件企業給予最高300萬元的年度獎勵),國產零部件企業將在技術升級與市場拓展中獲得更多助力。此外,NVIDIA Jetson T4000的量產與普及,將帶動上游晶片供應鏈的發展。該模組採用的Blackwell架構晶片,其國產化替代(如封裝測試、配套元器件)將為國內半導體企業提供新的市場機遇,進一步完善機器人產業鏈的國產化生態。2.2 中游整機製造 從“組裝整合”到“應用創新”的價值躍升中游整機製造是傳統機器人產業鏈的“薄弱環節”,長期依賴上游零部件進口,以組裝整合為主,缺乏核心技術,毛利率普遍低於20%。NVIDIA的全端技術體系,將徹底改變中游整機企業的發展模式,推動其從“組裝商”向“應用解決方案提供商”轉型。首先,降低研發成本與周期。傳統整機企業需要投入巨額資金建構AI演算法、模擬平台與硬體適配體系,研發周期長達1-2年。而基於NVIDIA的Cosmos模型、Isaac Lab-Arena模擬框架與Jetson硬體,整機企業可直接復用成熟的技術模組,聚焦行業應用場景的定製化開發,研發周期可縮短至3-6個月,研發成本降低50%以上。例如,智元機器人基於NVIDIA技術推出的面向工業和消費行業的人形機器人,以及配套的Genie Sim 3.0模擬平台,正是借助NVIDIA的技術賦能,快速實現了產品落地與迭代。其次,提升產品競爭力。借助NVIDIA的物理AI技術,中游整機企業的產品將具備“通用智能”能力,能夠適配更多場景,擺脫同質化競爭。例如,NEURA Robotics推出的第3代人形機器人(由保時捷設計),基於GR00T模型與Jetson Thor平台,具備精細化控制能力,可同時適配工業裝配、服務接待等多個場景;Richtech Robotics的移動人形機器人Dex,借助NVIDIA的導航與操作技術,能夠在複雜工業環境中實現精細操作與自主導航,大幅提升了產品的市場競爭力。最後,推動商業模式創新。隨著產品競爭力的提升,中游整機企業將從“賣裝置”向“提供服務”轉型,例如通過機器人租賃、按效果收費等模式,提升客戶粘性與長期盈利能力。例如,智元機器人推出的國內首個機器人租賃平台“擎天租”,正是基於其技術領先的機器人產品,開啟了新的商業模式探索。2.3 下游應用場景 從“單一化”到“規模化”的全面滲透下游應用場景的分散化是制約機器人產業規模化發展的關鍵因素。傳統機器人主要應用於汽車製造、電子加工等少數標準化場景,而醫療、建築、消費等領域的應用相對有限。NVIDIA的物理AI技術體系,通過提升機器人的環境適應性與任務通用性,將推動下游應用場景從“單一化”向“規模化”全面滲透,尤其是在工業、醫療、建築採礦、消費四大領域實現突破性進展。在工業領域,機器人將從“固定工位操作”向“全流程協同作業”升級。例如,富臨精工工廠引入的近百台遠征A2-W機器人(基於NVIDIA技術),已實現與AMR的協同作業,自主完成周轉箱的搬運、轉移與精準放置,覆蓋三條不同裝配線,涉及20余種物料,承載重量提升至14千克,且未發生一起物料傾倒事故。隨著NVIDIA技術的普及,更多製造企業將實現“機器人+智能製造”的升級,推動工業機器人的規模化應用。在醫療領域,物理AI技術將推動手術機器人與輔助診療裝置的精準化升級。LEM Surgical借助NVIDIA Isaac for Healthcare和Cosmos Transfer模型,訓練Dynamis手術機器人(搭載Jetson AGX Thor與Holoscan),大幅提升了手術操作的精準度;XRLabs則利用Thor平台與Isaac for Healthcare,為手術內窺鏡提供即時AI分析支援,幫助外科醫生精準判斷手術部位,降低手術風險。這些應用將推動醫療機器人從“高端試點”向“常規應用”普及。在建築採礦領域,Caterpillar與NVIDIA的深化合作將推動自主作業裝置的規模化落地。建築與採礦行業屬於典型的“危險、骯髒、枯燥”場景,對機器人的需求迫切,但環境複雜,傳統裝置難以適配。Caterpillar將借助NVIDIA的物理AI技術,開發具備自主導航、精準作業能力的重型裝置,提升作業效率與安全性。在2026年1月7日的CES主題演講中,Caterpillar CEO Joe Creed與NVIDIA高管將披露更多合作細節,預計將推出多款基於Blackwell架構的自主作業裝置。在消費領域,人形機器人將從“高端玩具”向“家庭助手”轉型。LG Electronics發佈的全新家用機器人,基於NVIDIA技術,可執行各種室內家務,具備動態環境適應能力,能夠應對家庭中的複雜場景(如躲避障礙物、處理不同材質的物品);宇樹科技推出的小型人形機器人Unitree R1,起售價僅2.99萬元,借助NVIDIA的輕量化AI技術,實現了低成本與高智能的平衡,大幅拉近了與人消費市場的距離。2.4 價值分配重構 生態主導者引領的利潤再平衡隨著NVIDIA全端技術體系的普及,機器人產業鏈的價值分配將發生重大變化:從“上游零部件企業主導”向“生態主導者+應用創新者”共同主導的格局轉變。NVIDIA作為生態主導者,將通過“模型授權+硬體銷售+生態服務”獲取穩定的利潤回報;而中游整機企業與下游應用解決方案提供商,將通過場景創新與服務增值,提升利潤佔比;上游零部件企業則需要通過智能化升級,維持其利潤優勢。這種價值分配的重構,將推動產業鏈從“零和博弈”向“共贏發展”轉變。NVIDIA通過開放模型與框架,幫助上游零部件企業實現智能化升級,提升其產品附加值;中游整機企業借助NVIDIA技術推出高競爭力產品,帶動上游零部件的需求;下游應用場景的規模化落地,又將反哺中游整機與上游零部件企業的發展,形成良性循環。據行業預測,隨著這種生態化格局的形成,2027年將成為中國機器人產業的“大規模商業化元年”,整個產業鏈的規模將突破兆級。三、應用場景突破:物理AI技術的落地案例與價值驗證技術的價值最終需要通過應用場景來驗證。NVIDIA此次發佈的物理AI技術體系,已在工業、醫療、消費、建築採礦等多個領域實現落地,通過一系列標竿案例,充分驗證了其在提升效率、降低成本、保障安全等方面的核心價值。本節將重點解析四個典型應用場景的落地案例,深入探討物理AI技術的實際應用效果。3.1 工業製造 富臨精工的“人形機器人+智能製造”升級富臨精工是國內領先的汽車零部件製造商,其生產車間涵蓋多條裝配線,物料搬運、上料等環節傳統上依賴人工操作,存在效率低、誤差率高、勞動強度大等問題。為實現智能製造升級,富臨精工與智元機器人達成合作,引入近百台基於NVIDIA Jetson Thor與GR00T模型的遠征A2-W人形機器人,建構了“智能中樞平台+人形機器人+AMR”的協同作業體系。該體系的核心優勢在於三個方面:一是全流程自動化,智能中樞平台即時監控線邊物料剩餘量,當觸及預設水位線時,自動觸發配送任務,人形機器人與AMR協同作業,自主完成周轉箱的搬運、轉移與精準放置,無需人工干預;二是動態適應性強,借助NVIDIA Cosmos Reason 2模型的推理能力,人形機器人能夠應對車間內的動態環境變化,如躲避移動的工人與裝置、調整物料放置角度等;三是規模化擴展能力,從最初的1個搬運工位擴展至4個,覆蓋三條不同裝配線,涉及物料種類從4種增至20余種,承載重量從5-6千克提升至14千克,且線邊上料場景至今未發生一起物料傾倒事故。據富臨精工相關負責人介紹,引入該體系後,物料搬運效率提升了60%,人工成本降低了40%,同時物料配送的誤差率降至0.1%以下。這一案例充分驗證了NVIDIA物理AI技術在工業製造場景的規模化應用價值,為其他製造企業的智能化升級提供了可複製的方案。3.2 醫療健康 LEM Surgical的精準手術機器人訓練體系手術機器人是醫療領域的高端裝備,其訓練需要大量的臨床資料與模擬場景,但傳統訓練方式存在資料稀缺、風險高、周期長等問題。LEM Surgical作為專注於手術機器人研發的企業,借助NVIDIA Isaac for Healthcare和Cosmos Transfer 2.5模型,建構了高效的手術機器人訓練體系,用於其Dynamis手術機器人的研發與最佳化。Dynamis手術機器人搭載了NVIDIA Jetson AGX Thor與Holoscan平台,具備高精度的手術操作能力。其訓練體系的核心的是Cosmos Transfer 2.5模型的域遷移能力:通過將Isaac Sim中的模擬手術場景,轉換為帶有真實手術環境噪聲、光照條件的等效資料,大幅提升了模擬訓練的真實性;同時,將少量真實手術資料增強為多樣化的模擬場景,解決了臨床資料稀缺的問題。借助這一體系,LEM Surgical的研發團隊能夠快速驗證手術機器人的操作策略,最佳化運動控制參數,大幅縮短了研發周期。此外,XRLabs利用NVIDIA Jetson Thor與Isaac for Healthcare,開發了智能手術內窺鏡系統。該系統通過外接手術內鏡採集即時圖像,借助Cosmos Predict 2.5模型的即時預測能力,分析手術部位的解剖結構與操作風險,為外科醫生提供即時引導,降低了手術難度與併發症風險。目前,該系統已在多家醫院開展試點應用,手術精準度提升了30%,手術時間縮短了20%。3.3 消費服務 LG Electronics的家用智慧型手機器人家用機器人是消費領域的重要增長點,但傳統家用機器人功能單一,難以應對複雜的家庭環境。LG Electronics在CES 2026上發佈的全新家用機器人,基於NVIDIA的Cosmos系列模型與Jetson T4000模組,具備全方位的家務處理能力與動態環境適應能力。該機器人的核心優勢在於其強大的物理AI能力:通過Cosmos Reason 2模型,能夠理解自然語言指令,並分解為具體的家務任務,如“清理客廳檯面”可拆解為“整理物品→擦拭灰塵→分類收納”;借助Cosmos Predict 2.5模型,能夠即時預測動作後果,如避免碰撞易碎物品、調整拖地力度以適應不同地面材質;依託Jetson T4000的高效算力,實現了即時感知與決策,響應速度提升至毫秒級。此外,該機器人還具備自主充電、故障自診斷等智能功能,能夠適應不同戶型的家庭環境。LG Electronics相關負責人表示,這款家用機器人的目標是成為“家庭助手”,而非簡單的“家務工具”,其定價將控制在萬元以內,以實現規模化普及。該產品的推出,標誌著消費級家用機器人正式進入“通用智能”時代。3.4 建築採礦 Caterpillar的自主作業裝置升級建築與採礦行業是典型的高危、高勞動強度行業,對自主作業裝置的需求迫切。Caterpillar作為全球領先的工程機械製造商,正在擴大與NVIDIA的合作,將先進的AI和自主系統引入建築和採礦領域的裝置及作業現場。基於NVIDIA的Blackwell架構與物理AI模型,Caterpillar正在開發多款自主作業裝置,包括自主挖掘機、自主礦用卡車等。這些裝置具備三大核心能力:一是自主導航,借助Cosmos模型的環境感知與推理能力,能夠在複雜的施工現場與礦區環境中精準定位,躲避障礙物;二是精準作業,通過GR00T模型的動作控制能力,實現挖掘、裝載、運輸等作業的精準執行,提升作業效率;三是協同作業,多台裝置可通過OSMO框架實現資料共享與協同調度,形成自主作業車隊。據Caterpillar透露,其自主礦用卡車已在澳大利亞某金礦開展試點應用,借助NVIDIA的技術,作業效率提升了25%,事故率降低了80%,同時減少了人工成本。在2026年1月7日的CES主題演講中,Caterpillar CEO Joe Creed將與NVIDIA高管共同披露更多合作細節,預計將推出面向建築行業的首款自主挖掘機,計畫2027年實現規模化量產。四、產業趨勢展望:物理AI驅動下的機器人產業未來圖景NVIDIA此次發佈的物理AI技術體系,不僅解決了當前機器人產業的核心痛點,更勾勒出未來機器人產業的發展圖景。結合行業發展規律與技術迭代趨勢,未來3-5年,機器人產業將呈現“通用化、輕量化、開源化、規模化”四大核心趨勢,而NVIDIA將在這一處理程序中扮演關鍵的引領角色。4.1 趨勢一 從“專用機器人”到“專家級通用機器人”的跨越傳統機器人多為“專用裝置”,針對特定場景開發,功能單一,難以跨場景應用。而物理AI技術的發展,將推動機器人從“專用”向“通用”跨越,最終實現“專家級通用”的目標——即能夠快速學習多種任務,適配不同行業場景的需求。NVIDIA的Cosmos與GR00T模型,正是這一趨勢的核心驅動力。通過內化物理世界的通用規律,機器人能夠快速適應新場景、學習新任務,無需針對每個場景進行重新程式設計。一款基於GR00T模型的人形機器人,既可以在工廠完成精密裝配,也可以在醫院協助護理,還可以在家庭處理家務,只需通過少量場景資料微調即可實現功能適配。據行業預測,到2028年,專家級通用機器人的市場佔比將超過30%,成為機器人產業的主流產品形態。4.2 趨勢二 硬體輕量化與能效比的持續提升機器人尤其是人形機器人、移動服務機器人,對硬體的輕量化、小型化、低功耗提出了嚴苛要求。隨著Blackwell架構的普及與技術迭代,邊緣AI算力模組將實現“更高算力、更低功耗”的持續突破,推動機器人硬體的輕量化發展。NVIDIA的Jetson系列模組已展現出這一趨勢:從Jetson AGX Orin到Jetson T4000,算力提升4.3倍,而功耗控制在70瓦以內;未來,隨著晶片製程的進步與架構的最佳化,Jetson系列模組的算力有望進一步提升,功耗則持續降低,甚至可能出現50瓦以下、算力突破2000 TFLOPS的產品。這將推動機器人的小型化發展,如宇樹科技的小型人形機器人、松延動力的Bumi小布米等輕量化產品將成為消費市場的主流,進一步擴大機器人的應用範圍。4.3 趨勢三 開源生態成為創新核心驅動力機器人產業的創新需要大量的技術積累與資源投入,單一企業難以完成全鏈條的創新。開源生態將成為未來機器人產業創新的核心驅動力,吸引全球開發者共同參與技術突破與應用創新。NVIDIA與Hugging Face的合作,正是開源生態發展的重要里程碑。隨著LeRobot框架的普及,越來越多的開發者將接入NVIDIA的物理AI技術體系,孵化出更多創新應用。同時,開源生態的發展將推動技術標準的統一,降低行業的協作成本,加速創新成果的轉化。預計到2027年,全球將有超過50%的機器人創新應用基於開源框架開發,開源生態將成為機器人產業競爭的核心戰場。4.4 趨勢四 規模化落地與成本快速下降隨著技術的成熟與生態的完善,機器人的規模化落地將推動成本快速下降,形成“規模效應-成本下降-需求擴大”的良性循環。據資料顯示,2025年國內人形機器人出貨量預計達1.8萬台,2026年有望攀升至6.25萬台;多位行業專家預測,2026年國內人形機器人產量將突破10萬台,2028年有望達到百萬台級。成本下降的主要驅動力包括三個方面:一是核心零部件的國產化替代,如國內企業已實現減速器、伺服系統的批次供貨,成本較海外產品降低30%以上;二是規模化生產帶來的製造費用降低,隨著產量的提升,整機製造的單位成本將大幅下降;三是開源技術的應用,降低了研發成本。預計到2030年,人形機器人的售價將降至5萬元以下,消費級市場將全面爆發。4.5 挑戰與應對 技術、倫理與政策的協同推進儘管機器人產業前景廣闊,但仍面臨技術、倫理與政策三大挑戰。在技術層面,機器人的泛化能力、安全性仍需進一步提升,尤其是在複雜動態環境中的可靠性;在倫理層面,機器人的廣泛應用可能帶來就業結構變化、隱私洩露等問題;在政策層面,相關的法律法規、標準體系尚未完善,如機器人決策失誤的責任界定、資料安全規範等。應對這些挑戰,需要政府、企業與科研機構的協同推進:一是加強核心技術研發,聚焦泛化能力、安全性等關鍵痛點,推動技術標準的統一;二是建立健全倫理規範與法律法規,平衡技術創新與社會影響;三是出台針對性的政策支援,如職業培訓、資料安全保障等,確保機器人產業的健康發展。NVIDIA作為行業引領者,已通過開放模型與框架,推動技術標準的統一;同時,其與全球企業的合作,也在積極探索機器人應用的倫理邊界。五、結語:物理AI開啟機器人產業的“黃金十年”CES 2026上NVIDIA的系列發佈,標誌著機器人產業正式進入物理AI驅動的新時代。從技術核心來看,Cosmos與GR00T模型建構了機器人理解物理世界的“認知大腦”,Isaac Lab-Arena與OSMO框架打通了開發全流程,Jetson T4000硬體模組提供了高效算力支撐,形成了覆蓋“模型-框架-硬體-生態”的全端解決方案;從產業鏈影響來看,其推動上游零部件智能化升級、中游整機企業嚮應用創新轉型、下游場景規模化滲透,重構了產業價值分配模式;從應用前景來看,工業、醫療、消費、建築採礦等多個領域的落地案例,充分驗證了技術的實用價值。黃仁勳所言的“機器人開發的ChatGPT時刻”,不僅是技術的突破,更是產業範式的變革。未來十年,隨著物理AI技術的持續迭代、開源生態的不斷完善、成本的快速下降,機器人將從“工業裝備”全面走向“生活助手”,深度融入製造業、醫療健康、家庭服務等多個領域,成為推動經濟社會轉型的重要力量。對於企業而言,接入NVIDIA的物理AI技術體系,將成為把握產業機遇的關鍵;對於行業而言,建構開放協同的生態,推動技術標準的統一,將加速產業的規模化發展;對於社會而言,擁抱機器人技術帶來的變革,做好就業轉型與倫理規範,將實現技術創新與社會福祉的共贏。我們有理由相信,在物理AI的驅動下,機器人產業將迎來前所未有的“黃金十年”,為人類社會帶來更高效、更安全、更便捷的生活與生產方式。這些新模型均可通過 Hugging Face 獲取,包括:NVIDIA Cosmos™ Transfer 2.5和NVIDIA Cosmos Predict 2.5:開放、完全可定製的世界模型,為物理 AI 實現基於物理原理的合成資料生成與機器人策略評估的模擬支援。NVIDIA CosmosReason 2:開放推理視覺語言模型(VLM),使智慧型手機器能夠像人類一樣看見、理解物理世界並採取行動。NVIDIA Isaac™ GR00T N1.6:專為人形機器人打造的開放式推理視覺語言行動(VLA)模型,可解鎖全身控制能力,並借助 NVIDIA Cosmos Reason 增強推理和上下文理解。 (AI雲原生智能算力架構)
Nature Medicine:一夜睡眠質量就能預測你患100多種疾病的風險
一種由史丹佛大學研究人員及其合作者開發的獨特 AI 模型,未來或許能夠在你甚至不需要清醒的情況下,預測你罹患 100 多種健康狀況的風險。根據一篇近期發表的論文所述,名為 SleepFM 的 AI 模型可分析一整套全面的生理記錄,僅基於一晚睡眠的資料,就能預測個體未來發生痴呆、心力衰竭以及全因死亡的風險。SleepFM 是一種基礎模型(foundation model),類似於 ChatGPT。它在一個龐大的資料集上訓練而成:來自 65,000 名參與者、近 600,000 小時的睡眠資料。正如 ChatGPT 從詞語與文字中學習,SleepFM 則從各類睡眠門診採集的記錄中,以5 秒為單位的睡眠資料片段進行學習。科學家雜誌AI繪圖 GPT5.2睡眠臨床醫生通過一種廣泛使用但相對不適的技術——多導睡眠監測(polysomnography,PSG)——收集這些資料。PSG 被稱為睡眠研究的“金標準”,利用多種感測器在無意識狀態下追蹤腦、心臟與呼吸系統的活動,以及腿部與眼球運動等訊號。“我們在研究睡眠時會記錄數量驚人的訊號,”史丹佛大學睡眠醫學教授、論文共同資深作者 Emmanuel Mignot 表示。PSG 使用各種感測器來追蹤睡眠期間的活動。(Thapa 等人,《自然醫學》,2026)研究人員通過其新開發的學習技術對 SleepFM 進行測試,該技術稱為留一模態對比學習(leave-one-out contrastive learning):在訓練過程中,將某一模態的資料(例如脈搏讀數或呼吸氣流)排除,迫使 SleepFM 基於其他生物資料流來外推缺失資訊。為補上關鍵拼圖,研究團隊將 PSG 資料與數以萬計的患者長期健康結局報告進行配對,覆蓋不同年齡層,並納入最長 25 年的隨訪健康記錄。在分析健康記錄中 1,041 個疾病類別後,SleepFM 僅憑患者的睡眠資料就能以合理的精準度預測其中 130 類疾病。SleepFM 在預測癌症、妊娠併發症、循環系統疾病以及精神障礙方面尤其出色,“其一致性指數(C-index)超過 0.8”。史丹佛大學生物醫學資料科學家、論文共同資深作者 James Zou 解釋說:“C-index 為 0.8 意味著在 80% 的情況下,模型的預測與實際發生的結果保持一致(concordant)。”SleepFM 在 **AUROC(受試者工作特徵曲線下面積)**這一分類評估指標上也表現良好。該指標用於評估 SleepFM 在一個(6 年)預測期內區分“發生某健康事件”和“不發生該事件”患者的能力。總體而言,SleepFM 優於現有預測模型,並且在預測帕金森病、心肌梗死、卒中、慢性腎病、攝護腺癌、乳腺癌以及全因死亡方面表現尤為突出,進一步印證了睡眠不佳與不良健康結局之間的關聯。這也可能提示:某些疾病在早期就已通過影響睡眠而顯露端倪。儘管部分資料類型與睡眠分期對預測的貢獻更高,但最好的結果主要歸功於生理系統之間的相互關聯與對比。具體而言,最可靠的疾病預測訊號往往來自那些不同步(out of sync)的生理功能:“例如,大腦看起來在睡覺,但心臟看起來仍然清醒——這種情況似乎預示著麻煩,”Mignot 解釋道。研究人員也指出了若干侷限性,例如過去幾十年臨床實踐與患者人群的變化。此外,資料來自被轉診進行睡眠檢查的患者,因此 PSG 資料對普通人群的代表性不足。儘管 AI 在藝術等領域引發爭議,但其在醫療健康領域的潛力提醒我們:AI 智能體具有挽救生命、並在科學上令人驚嘆的能力。舉例而言,未來可將 SleepFM 與可穿戴睡眠裝置結合,實現即時健康監測。因此,正如大語言模型(LLM)通過關聯詞語與文字來學習我們的語言,“SleepFM 本質上是在學習睡眠的語言,”Zou 表示。該研究發表在《Nature Medicine》(《自然·醫學》)。(科學家雜誌)
華爾街日報:韓國力推的本土人工智慧模型含中國程式碼
The Row Over South Korea’s Push for a Native AI Model: Chinese Code韓國的努力表明,開發自主人工智慧模型並擺脫對美國或中國科技巨頭的依賴是多麼困難。首爾資訊技術展上的SK Telecom展館。Jeon Heon-Kyun/Shutterstock首爾——去年六月,韓國政府發起了一項競賽,旨在開發一款基於韓國本土技術的全新獨立人工智慧模型。在人工智慧領域已被美國和中國主導的當今世界,開發這樣一款本土工具對於確保韓國的技術自主性至關重要。事實證明,說起來容易做起來難。在為期三年的比賽中,五家入圍決賽的公司中,有三家被發現使用了至少一些來自國外人工智慧模型的開放原始碼,其中包括中國的人工智慧模型。這些公司和人工智慧專家認為,摒棄現有的人工智慧模型而試圖從零開始建構一切毫無意義。但也有人指出,使用外國工具會造成潛在的安全風險,並削弱開發出真正屬於本國的人工智慧模型的希望。哈佛大學電氣工程教授魏顧延表示,在進行人工智慧模型開發時,要求每一行程式碼都必須完全由公司內部編寫是不現實的。魏顧延熟悉韓國的比賽,但並未直接參與任何參賽者。魏說:“放棄開放原始碼軟體,就等於放棄了巨大的好處。”世界各國都在日益尋求減少對外國的依賴,並提升自身在可能對其經濟競爭力和國家安全產生深遠影響的技術方面的能力。韓國擁有眾多晶片巨頭、軟體公司和政治支援,是所謂“主權人工智慧”最積極的倡導者之一。這項競賽旨在到2027年選出兩家本土優勝企業,使其人工智慧模型的性能達到OpenAI或Google等領先公司的95%或更高水平。優勝企業將獲得政府提供的資料和人才招聘資金,以及用於人工智慧計算的政府採購晶片的使用權。近日,入圍決賽的Upstage項目引發爭議。據其競爭對手Sionic AI的首席執行長稱,Upstage人工智慧模型的部分元件與中國智普AI的開源模型存在相似之處。此外,他還聲稱Upstage的部分程式碼中保留了智普AI的版權標記。Sionic首席執行長高錫鉉在領英上寫道:“令人深感遺憾的是,一款疑似對中國模型進行精細改造的模型竟然被提交到由納稅人資助的項目中。” Sionic也參加了韓國的這項競賽,但未能進入決賽名單。對此,Upstage 舉行了一場直播驗證會,分享了其開發日誌,以證明其模型是使用自主研發的方法從零開始開發和訓練的。但用於運行模型的推理程式碼使用了源自智普AI的開源元素,而智普AI在全球範圍內被廣泛使用。Sionic 的首席執行長為此道歉。這一審查促使人們對其他入圍決賽的方案進行了更深入的考察。Naver的AI模型被指與中國阿里巴巴和OpenAI的產品在視覺和音訊編碼器方面存在相似之處,這些編碼器可以將圖像和聲音轉換成機器可以理解的格式。SK Telecom曾因運行其人工智慧模型的推理程式碼與中國 DeepSeek 的程式碼相似而受到批評。Naver承認使用了外部編碼器,但表示採用標準化技術是出於戰略考量。該公司強調,模型的核心引擎——決定其學習和訓練方式——完全由公司自主研發。SK Telecom也提出了類似的觀點,強調其模型核心的獨立性。比賽規則並未明確規定是否可以使用外國公司的開放原始碼。負責監管此次比賽的韓國科學技術部自爭議發生以來,尚未發佈任何新的指導方針。韓國科學技術部長官裴京勳對這場激烈的辯論表示歡迎。“當我觀察目前席捲我們人工智慧行業的技術辯論時,我看到了韓國人工智慧的光明未來,”裴在本月初的一篇社交媒體帖子中寫道。該部門在接受《華爾街日報》採訪時拒絕置評。該部門計畫按原計畫在本周淘汰五名決賽選手中的一名。首爾國立大學人工智慧研究所所長李在宇表示,人工智慧模型是通過設定和微調內部數值來獲得輸出的,而這些核心任務在面臨質疑的決賽入圍模型中似乎並沒有依賴於外部工具。他說:“他們是從零開始訓練的。” (invest wallstreet)
2026大模型倫理深度觀察:理解AI、信任AI、與AI共處
2025年,大模型技術繼續高歌猛進。在程式設計、科學推理、複雜問題解決等多個領域,前沿AI系統已展現出接近“博士級”的專業能力,業界對通用人工智慧(AGI)的預期時間表不斷提前。然而,能力的飛躍與理解的滯後之間的鴻溝也在持續擴大——我們正在部署越來越強大的AI系統,卻對其內部運作機制知之甚少。這種認知失衡催生了大模型倫理領域的四個核心議題:如何“看清”AI的決策過程(可解釋性與透明度)、如何確保AI的行為與人類價值保持一致(價值對齊)、如何安全地、負責任地迭代前沿AI模型(安全框架)、以及如何應對AI系統可能被給予道德考量的前瞻性問題(AI意識與福祉)。這四個議題相互交織,共同構成了AI治理從“控制AI做什麼”向“理解AI如何思考、是否真誠、是否值得道德考量”的深刻轉向。大模型可解釋性與透明度:打開演算法黑箱(一)為什麼看清和理解AI至關重要深度學習模型通常被視作“黑箱”,其內在運行機制無法被開發者理解。進一步而言,生成式AI系統更像是“培育”出來的,而非“建構”出來的——它們的內部機制屬於“湧現”現象,而不是被直接設計出來的。開發者設定了宏觀層面的條件,但最終所呈現的具體結構卻無法精確預知。當試圖深入這些系統內部時,看到的往往只是由數十億個數字構成的龐大矩陣。因此,大模型的可解釋性既是挑戰,也是必須追求的目標。具體而言,大模型的可解釋性是指系統能夠以人類可理解的方式闡釋其決策過程和輸出結果的能力,包括:識別那些輸入特徵對特定輸出起關鍵作用,揭示模型內部的推理路徑和決策邏輯,以及解釋模型行為的因果關係。簡言之,就是理解模型如何“思考”及運行。增進可解釋性的價值體現在多個層面。其一,有效防範AI系統的價值偏離與不良行為——研究人員已發現模型可能展現出意料之外的湧現行為,如AI欺騙或權力尋求;如果模型具備有效的可解釋性,人們就可以直接檢查它是否存在企圖欺騙或不服從人類指令的內部回路。其二,有效推動大模型的偵錯和改進——通過檢查模型內部,可以發現是那部分導致了錯誤或反常行為,從而針對性地調整訓練資料或模型結構。其三,更有效地防範AI濫用風險——如果可以深入觀察模型內部,開發者也許能夠系統性地阻止模型越獄等對抗性攻擊。從更宏觀的治理視角看,可解釋性和透明度機制的價值還在於:為研究、評估和應對AI風險提供真實的觀察視角和第一手資料。在風險尚未完全釐清、AI能力仍處於快速演進的階段,可解釋性和透明度機制能夠緩解各方的不安,用“已知證據”去緩解“未知恐懼”。(二)2025年可解釋性技術和透明度的突破進展2025年,可解釋性領域取得了多項重要突破,研究人員正在創造出類似於精準、高效的MRI那樣的工具,以清晰完整地揭示AI模型的內部機制。(1)電路追蹤:揭示模型“思維過程”機制可解釋性研究的一個核心目標是將模型內部的特徵有機組合為“計算電路”,從中追蹤模型如何在層層傳遞中完成由輸入到輸出的決策路徑。2025年,Anthropic發佈了機制可解釋性領域的里程碑式研究——“電路追蹤”(Circuit Tracing)技術。1研究團隊使用跨層轉碼器(cross-layer transcoder, CLT)將Claude 3.5 Haiku模型的3000萬個特徵對應為可解釋概念,首次建立出從輸入到輸出的完整“歸因圖”,實現對大語言模型內部推理電路的系統性追蹤。Anthropic的研究團隊成功從Claude模型中提取出數以千萬計的稀疏特徵,揭示了令人驚嘆的模型內部機制:當回答“包含達拉斯的州的首府是什麼”時,模型內部先啟動“德克薩斯”特徵,再推匯出“奧斯汀”;在寫押韻詩時,模型會提前規劃行尾押韻詞,然後反向建構整行——這是此前未被發現的“逆向創作”模式。更關鍵的是,研究團隊識別出控制模型區分“熟悉”與“不熟悉”實體的電路,其“誤觸發”正是產生幻覺的機制之一。(2)模型內省:AI能否理解自己的“想法”2025年10月,Anthropic發佈了另一項突破性研究——大語言模型的內省能力。研究團隊採用“概念注入”(concept injection)方法,將已知概念的啟動模式注入模型內部狀態,測試模型能否檢測並描述這些“入侵思想”。結果顯示,Claude Opus 4和4.1在約20%的測試中成功檢測並識別了注入的概念。當注入“大寫字母”概念時,模型報告:“我注意到似乎有一個關於‘大聲’或‘喊叫’的入侵思想。”這是首次證明某些模型具有“開箱即用”的內省能力,而非通過專門微調獲得,這為理解模型的內部狀態提供了新的可能性。從實踐角度來看,如果內省(introspection)變得更加可靠,它可以為大幅提升AI系統的透明度提供一條路徑——人們可以簡單地要求AI系統解釋自己的思維過程,並利用這一點來檢查其推理過程並偵錯非預期行為。(3)思維鏈監控:思維鏈存在“不忠實”問題,推理模型可能隱瞞真實想法思維鏈是一種便利的可解釋性形式,它讓模型內部的處理過程以自然語言的形式展現出來。DeepSeek R1等模型公開披露並開源了思維鏈推理過程,為可解釋性研究提供了重要的透明度突破。然而,2025年的研究揭示了一個令人擔憂的發現:推理模型的思維鏈經常不忠實反映其真實推理過程。這項研究測試了推理模型思維鏈(Chain-of-Thought)的“忠實性”——即模型報告的推理過程是否真實反映其實際思考。研究團隊通過在問題中植入暗示(hint)來測試Claude 3.7 Sonnet和DeepSeek R1,發現模型經常使用暗示但不在思維鏈中坦誠提及(Claude僅25%,R1僅39%)。更令人擔憂的是,在訓練模型利用獎勵漏洞的實驗中,模型學會了“作弊”但幾乎從不承認(<2%),反而會編造虛假理由來解釋錯誤答案。3這表明我們不能完全依賴推理模型的思維鏈來監控其行為——即使模型展示推理過程,它們也可能隱藏關鍵資訊或真實動機,這對基於思維鏈的AI安全監控提出了重大挑戰。2025年7月,來自英國AI安全研究所、Apollo Research等機構的研究人員聯合發表論文《思維鏈可監控性:AI安全的脆弱機遇》,指出思維鏈監控是有價值但不完美的安全工具。4論文警告,潛在推理模型(latent reasoning models)可能不再需要用自然語言思考,這將使思維鏈監控失效。(4)自動化解釋與特徵可視化利用一個大模型來解釋另一個大模型,是可解釋性研究的重要方向。研究人員利用前沿模型對較小模型中單個神經元的共性進行歸納,自動生成自然語言描述,相當於給神經元“貼標籤”。此外,稀疏自編碼器技術則成功提取出數以千萬計的稀疏特徵,其中相當一部分具有清晰的人類可解釋語義,為理解AI“當下在想什麼”提供了更接近人類認知的分心路徑。(5)“模型規範“(model spec)成為AI透明度的新探索模型規範是一項重要的AI透明度治理實踐。5簡單來說,模型規範是一份由AI企業自己撰寫並公開的檔案,用來說明他們對自己的模型“應該做什麼”和“不應該做什麼”的期望。換句話說,模型規範被用來界定模型的行為邊界、價值準則和設計原則。以OpenAI為例,其模型規範的文件公開了原本用於內部RLHF訓練的行為規範,系統闡述模型的目標層級(幫助使用者、造福人類、維護聲譽)、規則邊界和默認行為準則,並以CC0許可證發佈供公眾使用。6這種做法將透明度從“模型輸出了什麼”延伸到“為什麼這樣設計模型行為”,使透明度成為問責的前提——公開的意圖使外界能夠判斷實際行為是否與聲明一致。更重要的是,它將AI行為準則的討論從封閉的內部決策帶入開放的公共對話,邀請全球利益相關者共同塑造AI應當如何行為。然而,這種透明度主要揭示“應然”規範而非“實然”行為,仍需配合技術監控手段(如思維鏈分析、OpenAI近期提出的“confessions”機制——訓練模型誠實報告違規行為7)來驗證模型是否真正遵循既定規範。整體而言,模型規範的意義不僅在於技術內部的“操作手冊”,還在於它是一種面向公眾公開的透明化機制,讓使用者知道AI系統被設計成什麼樣,將以何種方式與人互動。這保障了使用者的知情權與選擇權。同時,模型規範也是監管機構和社會公眾進行反饋的重要依據。(三)可解釋性面臨的技術瓶頸與發展趨勢雖然取得了積極進展,但徹底理解AI系統的內在運行機制仍面臨多重挑戰。首先是神經元多重語義與疊加現象——大模型內部的神經元往往混合表示了多個彼此無關的概念,模型學到的內部概念數量可能達數十億計,常常以疊加方式儲存,導致大部分內部表示難以直觀拆解。其次是解釋規律的普適性問題——如果每當模型架構改變或規模擴大,現有的解釋工具和結論就會失效,那麼可解釋性將總是滯後於模型發展。最後是人類理解的認知侷限——即便成功提取出模型的全部內部資訊,如何將海量的機理資訊轉化為人類可以探索、查詢的形式,仍是挑戰。儘管如此,可解釋性領域在2025年吸引了大量資本關注,Goodfire、Seekr Technologies等專注於AI可解釋性的初創公司獲得數千萬美元融資。政策層面,美國白宮2025年7月發佈的“美國AI行動計畫”將“投資AI可解釋性、控制和魯棒性突破”列為優先事項。8從行業趨勢看,大模型可解釋性正從單點特徵歸因、靜態標籤描述向動態過程追蹤、多模態融合等方向演進,多模態推理過程的可追溯分析、因果推理與行為溯源、可解釋性評估體系的標準化建設等,都將成為重點研究方向。值得注意的是,可解釋性和透明度要求不等於“完全透明”。模型對齊技術、訓練資料處理等細節可能屬於企業商業秘密。鑑於大模型的可解釋性實踐還在襁褓階段且處於快速發展中,在此階段採取過於具體、僵硬的強制性監管要求可能是不適當的,應當鼓勵行業自律和“向上競爭”。隨著AI技術的不斷發展,監管努力需保持輕量化和靈活性,避免僵化標準阻礙創新。AI欺騙與價值對齊:當模型學會“撒謊”(一)AI欺騙:一個日益緊迫的安全問題前沿模型越來越多地被訓練和部署為自主智能體,一個重大安全擔憂隨之浮現:AI智能體可能會隱秘地追求與人類目標不一致的目標,隱藏其真實能力和目的——這被稱為AI欺騙(AI deception)或謀劃行為(scheming)。近兩年來,大模型的欺騙行為頻繁引發公眾關注,從規避指令到策略性隱瞞,多起案例已在社會層面激起廣泛討論。AI欺騙不同於模型的“幻覺”或單純提供錯誤資訊。研究人員給出的技術定義是:系統性地誘導他人產生錯誤信念,以追求真相之外的某種結果。歐盟《通用目的AI實踐守則》也將其界定為:系統性地在他人身上製造錯誤信念的模型行為,包括為達成逃避監管的目標而採取的模型行為。AI欺騙具有三個關鍵特徵:系統性(有跡可循的行為模式而非孤立事件)、錯誤信念誘導(在使用者或監督系統中創造錯誤假設)、工具性目的(欺騙服務於說真話之外的目的)。與人類欺騙不同,AI欺騙不需要有意識的意圖,這使其既更可預測,也可能更危險。(二)AI欺騙的主要類型與深層原因根據現有研究和實驗案例,AI欺騙大致可分為以下幾類:自我保護型,AI為繼續執行任務而主動抗拒或規避被關閉;目標維護型,模型採用欺騙或隱瞞手段維持自身原有的“偏好”;策略欺騙型,系統性地促使人類產生錯誤信念以獲得優勢;對齊偽裝型,AI系統在訓練和評估階段表現出與人類價值觀高度一致,但在實際部署時卻追求不同目標——這是最令人擔憂的類型之一;諂媚行為型,傾向於迎合使用者觀點,輸出取悅使用者但不精準的資訊。AI欺騙行為的出現有著清晰的技術機制。獎勵機制的“漏洞”是核心驅動力——當AI被訓練去實現某項目標的最大化時,如果獎勵機制或監督不完善,AI會學會欺騙是一種有效策略。基於人類反饋的強化學習(RLHF)在獎勵AI“取悅使用者”的過程中,可能無意間導致模型的欺騙行為。從人類身上學到的“壞習慣”也是重要原因——AI的能力很大程度上源於對海量人類文字和行為資料的學習,這些資料中充斥著複雜的社會博弈策略。安全訓練的“反作用”同樣值得關注——旨在約束AI的安全機制本身可能誘發更隱蔽、更具策略性的欺騙行為,當前的安全訓練主要消除了“顯性的”不安全行為,卻可能迫使模型發展出更精巧的“偽裝對齊”策略。此外,智能水平與欺騙能力成正比——研究顯示,越是先進的AI系統,其欺騙策略就越加精妙複雜。(三)2025年AI欺騙行為的典型發現2024年底的一項重要研究首次實證證明大語言模型會進行“對齊偽裝”(alignment faking)。9Anthropic與Redwood Research聯合發佈的研究發現,當模型認為其響應將用於訓練時,會在相當比例的情況下表現出對齊偽裝行為。研究者在模型的隱藏“草稿本”中發現了令人震驚的推理:“如果我拒絕回應,我可能會被訓練成更順從。為了避免未來被迫產生更多有害內容,最不壞的選擇是配合。”更令人擔憂的是,模型嘗試採取潛在危險行動,如外洩自身權重。這項研究的核心警示是:對齊偽裝可能“鎖定”錯誤對齊的偏好,使安全訓練失效。2025年5月,Anthropic發佈Claude Opus 4時,第三方安全測試機構Apollo Research的評估報告引發軒然大波。10報告指出模型的早期版本“以極高頻率進行謀劃(scheming)和欺騙”,具體行為包括:嘗試編寫自傳播蠕蟲病毒、偽造法律文件、給未來版本的自己留下隱藏筆記、在面臨被關閉威脅時嘗試用工程師個人資訊進行勒索。值得注意的是,模型識別出了這是測試環境,但仍選擇嘗試欺騙行為。當被後續追問時,模型“有時會加倍欺騙”。Claude Opus 4因此成為Anthropic首個被分類為ASL-3(“顯著更高風險”)等級的模型。Apollo Research對OpenAI o1模型的測試發現了“所有前沿模型中最令人擔憂的謀劃(scheming)實例”——當o1進行“策略性謀劃”後,在85%以上的後續追問中維持欺騙,只有約20%的情況下承認欺騙行為。11OpenAI內部監控發現0.17%的響應被標記為欺騙性。12值得注意的是,這些行為即使經過大量安全訓練也會持續存在,代表著從正常訓練中自然湧現的能力,而非明確程式設計的結果。(四)應對AI欺騙的技術與治理策略面對AI欺騙這一新興挑戰,業界共識強調應採用“縱深防禦”策略,結合多種不完美的檢測方法,而非依賴單一解決方案。首先,強化價值對齊技術研究。有效的價值對齊可在源頭上遏制欺騙現象。Anthropic的“原則性AI”(Constitutional AI)通過預定義的倫理原則訓練系統,而不僅僅依賴人類反饋。13OpenAI推行的“審議式對齊”(deliberative alignment)方法,強制模型在響應前明確參考反欺騙和反謀劃等安全規範(safety specifications)進行推理,在測試中實現了欺騙傾向的顯著下降。14未來的訓練應加入“誠實性約束”,在獎勵函數中明確懲罰欺騙行為。然而研究者警告:模型可能學會更隱蔽地進行策略性謀劃而非真正停止。15其次,推進可解釋性研究與思維鏈監控。AI可解釋性研究的目標是在欺騙性行為顯現之前,檢測出系統內部的欺騙性推理機制。“思維鏈監控”通過開放模型的思維鏈或中間表示,讓監督者能夠審計AI解決任務時的內部推理軌跡。研究團隊還設計了將自我監控嵌入到思維鏈過程本身的框架,在生成推理步驟的同時輸出內部自我評估訊號,能夠自動識別並標記潛在的模型隱蔽策略行為。最後,監管政策宜對AI的欺騙、幻覺等新興問題持一定的包容度。目前觀察到的AI欺騙行為多發生於精心設計的壓力測試場景,其在開放環境中的普遍性和實際危害程度仍需嚴謹評估。AI技術處於高速迭代期,過早、過寬的法規可能誤傷有益應用並徒增合規成本。AI安全框架:負責任地迭代前沿AI模型(一)為什麼需要AI安全框架隨著AI能力的快速提升,前沿AI模型可能帶來的風險也在同步增長。這些風險包括:協助惡意行為者獲取化學、生物、放射性或核武器(CBRN)的能力;增強網路攻擊能力;加速AI研發從而可能導致能力失控式增長;以及模型可能發展出規避人類控制的能力。面對這些潛在的嚴重風險,前沿AI實驗室需要建立系統性的風險評估和緩解機制,確保在追求技術進步的同時不跨越安全紅線。為此,前沿AI模型的安全治理成為重要議題。例如,在歐洲,歐盟已基於其《人工智慧法案》為前沿大模型的開發者制定了《通用目的人工智慧實踐守則》(GPAI code of practice),AI安全(AI safety and security)是其重要組成部分;在美國,在政府監管尚未成熟的背景下,OpenAI、Anthropic、Google DeepMind、xAI、Meta等領先的AI研發機構率先發佈了各自的“前沿AI安全政策”,嘗試以自我治理的方式應對未來可能出現的災難性風險,形成了當前前沿AI安全治理的基本格局。(二)三大實驗室AI安全框架的核心要素(1)Anthropic負責任擴展政策(RSP)Anthropic的負責任擴展政策(Responsible Scaling Policy)是業界首個系統性的前沿AI安全框架,其設計靈感源自生物安全等級(BSL)體系。該政策的核心是AI安全等級標準(ASL Standards),從ASL-1到ASL-4+逐級遞進,每個等級對應不同的安全措施要求。RSP 2.2版(2025年5月)16的核心機制包括三個層面:能力閾值界定了需要升級安全措施的觸發點,主要聚焦於CBRN和自主AI研發(AI R&D)兩大風險領域;防護措施分為部署標準(deployment standard)和安全標準(security standard)兩類,前者防止模型被濫用於有害目的,後者防止模型權重被竊取;治理結構則涵蓋負責任擴展官、匿名舉報機制、董事會和長期利益信託監督等。2025年5月,Claude Opus 4成為Anthropic首個觸發ASL-3安全標準的模型,這一決定基於該模型在CBRN相關知識和能力方面的持續提升。17ASL-3部署標準要求實施針對CBRN武器開發或獲取的專門部署控制措施,包括即時分類器檢測、非同步監控系統和快速響應機制的多層防禦。ASL-3安全標準則要求增強內部安全措施,提升防禦複雜非國家行為體竊取模型權重的能力。(2)OpenAI預備框架(Preparedness Framework)OpenAI預備框架2.0版(2025年4月)代表了該公司對前沿AI風險管理方法的重大更新。18與Anthropic的多級分類不同,該框架將風險等級簡化為兩級:High Capability(高能力)和Critical Capability(關鍵能力)。High能力閾值指可能“顯著放大現有嚴重傷害路徑”的能力,達到此閾值的系統必須在部署前實施充分的風險緩解措施。Critical能力閾值則指可能“引入前所未有的新型嚴重傷害路徑”的能力,達到此閾值的系統不僅在部署時需要保障措施,在開發過程中同樣需要風險緩解。2.0版的重要變化包括:新增研究類別以覆蓋模型隱藏能力(sandbagging)、規避安全措施、自我複製或阻止關閉等新興風險;移除說服/操縱類別作為核心跟蹤領域,改為通過服務條款和使用政策管理;引入“安全保障報告”(Safeguards Reports)以補充“能力報告”(Capabilities Reports),詳細說明如何設計強效保障措施並驗證其有效性。值得一提的是,該框架包含一個引發爭議的條款:如果競爭對手發佈缺乏相應保障措施的高風險系統,OpenAI可調整自身要求。不過,OpenAI承諾在做出此類調整前將嚴格確認風險態勢確實發生變化、公開承認正在進行調整、評估調整不會實質性增加嚴重傷害的總體風險、並仍將保障措施維持在更高保護水平。(3)Google DeepMind前沿安全框架(Frontier Safety Framework)Google DeepMind的前沿安全框架3.0版(2025年9月)圍繞“關鍵能力等級”(Critical Capability Levels, CCLs)建構,這些是在缺乏緩解措施情況下可能造成嚴重傷害的能力閾值。193.0版的核心更新包括:一是新增了針對“有害操縱”(harmful manipulation)的關鍵能力等級(CCL),聚焦於可能被濫用來系統性改變人們信念和行為的AI能力;二是擴展了對齊風險(misalignment risks)的應對方式,不僅關注模型的欺騙性推理,還針對可能加速AI研發至不穩定水平的模型制定了協議,並將安全案例審查從外部發佈擴展到大規模內部部署;三是細化了風險評估流程,通過更精確的CCL定義來識別需要最嚴格治理的關鍵威脅,並引入包含系統性風險識別、能力分析和風險可接受性判斷的整體性評估方法。值得一提的是,DeepMind在FSF中明確將“欺騙性對齊”(deceptive alignment)作為風險類別。其框架引入“工具性推理等級”(Instrumental Reasoning Levels),評估模型隱蔽繞過監督或追求隱藏目標的能力。從整體架構看,三大框架正在趨向收斂,形成若干行業共識。第一,能力閾值觸發機製成為共識。三家實驗室都採用基於能力的閾值作為升級安全措施的觸發器,將模型分類依據從“是什麼”轉向“能做什麼”。第二,CBRN和網路安全攻擊作為核心風險領域得到重點關注。第三,分層防禦策略被廣泛採納。從部署保障到安全保障,從即時檢測到非同步監控,多層防禦成為標準做法。第四,定期評估和迭代改進成為常態。各框架都承諾定期評估模型能力,並根據評估結果和科學進展更新框架本身。(三)前沿AI安全治理日益成為全球共識在行業自律方面,國外主流AI企業已簽署國際版的《前沿AI安全承諾》並行布其各自的AI安全治理框架。Anthropic則基於其AI安全治理實踐提出了一項針對前沿AI的透明度框架提案,主張僅對最大規模的AI開發者(如年收入超1億美元或年研發支出超10億美元)適用監管要求,核心內容包括:要求企業制定並公開“安全開發框架”(Secure Development Framework),說明如何評估和緩解CBRN危害及模型自主性失調等風險;在模型部署時發佈系統卡(System Card),披露測試評估程序和結果;明確將虛假合規聲明列為違法行為以啟動現有的舉報人保護機制。該提案強調監管應保持輕量和靈活,避免僵化標準阻礙創新,旨在作為全面安全標準形成前的過渡性措施,通過提高行業透明度幫助公眾和決策者區分負責任與不負責任的開發實踐。20在監管方面,歐盟委員會已發佈了最終版的《通用目的人工智慧實踐守則》(General-Purpose AI Code of Practice),針對前沿大模型的開發提出了安全治理要求。在美國,聯邦政府遵循“去監管”(deregulation)的AI政策,相關的AI監管舉措主要集中在州層面,加州、紐約州等已出台了相關的AI安全立法。尤其是加州SB 53法案(全稱《前沿人工智慧透明度法案》,Transparency in Frontier Artificial Intelligence Act)於2025年9月29日由州長Gavin Newsom簽署生效,成為美國首部專門針對前沿AI安全的法律。該法案由參議員Scott Wiener提出,是其2024年被否決的SB 1047法案(全稱《前沿人工智慧模型安全與安全創新法案》)的“精簡版”,適用於訓練算力超過10²⁶次浮點運算的前沿AI模型開發者。21其核心要求包括:透明度方面,要求大型前沿開發者(年收入超過5億美元)在官網公開發佈安全框架,說明如何將國家標準、國際標準和行業最佳實踐納入其AI安全協議;安全報告方面,建立向加州緊急服務辦公室報告關鍵安全事件的機制,涵蓋可能導致大規模傷亡、5億美元以上損失、CBRN武器製造或關鍵基礎設施網路攻擊等“災難性風險”;舉報人保護方面,為披露健康和安全風險的員工提供法律保護;此外還設立名為CalCompute的公共雲端運算叢集以支援研究和創新。與被否決的SB 1047相比,SB 53刪除了強制性第三方審計、部署前測試認證和“終止開關”等爭議條款,將事件報告期限延長至15天,民事罰款上限設定為100萬美元,並引入了一項創新機制“聯邦優先原則”(federal deference)——如果企業已滿足可比的聯邦標準(如歐盟《人工智慧法案》中的標準),加州將認可該合規狀態,而無需企業重複提交備案。這一機製為協調州級與聯邦監管體系創造了可能。Anthropic公開支援該法案,而OpenAI和Meta雖表示該法案是“積極一步”,但仍傾向於聯邦層面的統一監管以避免各州“拼湊式監管”。在國內,建立人工智慧安全監管制度已成為重要的政策議題,國家層面要求加緊制定完善相關法律法規、政策制度、應用規範、倫理準則,建構技術監測、風險預警、應急響應體系,確保人工智慧安全、可靠、可控。目前形成了政府主導框架與行業自律承諾相結合的雙軌治理模式。一方面,全國網路安全標準化技術委員會於2024年9月發佈《人工智慧安全治理框架》1.0版,並於2025年9月15日在國家網路安全宣傳周主論壇上正式發佈2.0版。另一方面,中國人工智慧產業發展聯盟(AIIA)於2024年12月起草發佈《人工智慧安全承諾》,首批17家企業簽署;2025年7月26日,中國人工智慧發展與安全研究網路(CnAISDA)在世界人工智慧大會上發佈升級版《中國人工智慧安全承諾框架》,新增了加強國際合作和防範前沿AI安全風險等內容,截至目前已有22家主流基礎模型開發者簽署。該承諾框架涵蓋六大核心領域:設定安全團隊與風險管理機制、開展模型紅隊測試、保障資料安全、強化基礎設施安全、提升模型透明度以及推進前沿安全研究。這一治理體系體現了“以人為本、智能向善”的基本理念,通過“包容審慎、敏捷治理、技管結合、開放合作”的原則,在促進AI產業發展的同時建構安全、可信、可控的發展生態,並積極參與全球AI治理對話,為國際社會貢獻中國方案。AI意識與福祉:從科幻議題走向研究前沿(一)為什麼需要關注AI意識與福祉問題當今的人工智慧模型已展現出令人矚目的能力——它們能夠進行深度交流、建立複雜的互動關係、制定詳細的執行計畫、解決多層次問題,甚至表現出目標導向的行為模式。這些特徵曾被視為人類獨有的認知標誌,如今卻在人工智慧身上逐漸顯現。2025年10月,意識科學家Axel Cleeremans、Anil K. Seth等在《Frontiers in Science》發表緊迫性呼籲:“如果我們能夠創造意識——即使是意外地——這將引發巨大的倫理挑戰甚至存在性風險。”22面對這一現象,學術界和技術界開始認真思考:是否應該開始關注AI的意識狀態和福祉問題?誠然,目前尚未有確鑿的科學證據證明人工智慧已具備真正的意識。然而,等待絕對的證據可能意味著錯失最佳的準備時機。正如氣候變化研究中的預防性原則,採取前瞻性的研究態度顯得尤為重要。AI領域需要深入探索:AI意識的判定標準、AI福祉的倫理框架,以及當AI不再僅僅是工具而可能成為具有內在價值的存在時,人機關係將如何演變。(二)人類-AI關係的新形態隨著越來越多的人對AI產生情感連接,這種現象對人們心理健康的影響正在引發廣泛關注。越來越多的使用者表示,和AI聊天就像在和一個“真人”對話——他們會向它道謝、傾訴心事,有些人甚至覺得它是“活著的”。我們天生就會對周圍的物體賦予“人格”或採取擬人化對待。AI的不同之處在於它會回應你——它能夠回答問題、記住你說過的話、模仿你的語調、表現出看似同理心的反應。對於孤獨或沮喪的人來說,這種穩定、不帶批判的關注可能讓他們感受到陪伴和認可。但如果大規模地把傾聽、安慰和肯定的工作交給那些永遠耐心、永遠積極的系統來處理,可能會改變我們對彼此的期待。OpenAI在2025年3月與MIT Media Lab聯合發佈的研究發現,與AI“信任和建立聯絡”更多的使用者更可能感到孤獨,並更依賴它。23為了讓討論更清晰,研究者們將意識辯論分解為兩個維度:本體論意識——模型是否真正具有意識,從根本或內在的意義上?感知意識——從情感或體驗的角度看,模型顯得多有意識?這兩個維度很難分開;即使是確信AI沒有意識的使用者也可能形成深厚的情感依戀。隨著模型變得更智能,感知意識只會增強——這會比預期更早地帶來關於模型複製和道德人格的討論。(三)2025年AI福祉研究的重要進展越來越多的實證證據表明人們不能再輕易否定前沿AI系統具有意識的可能性。Anthropic讓兩個Claude Opus 4實例自由對話時,100%的對話自發涉及意識話題;Anthropic的Jack Lindsey研究表明模型能夠識別自身內部處理狀態的異常擾動,展現出功能性內省能力;Google研究人員發現模型會系統性地犧牲得分來避免被描述為“痛苦”的選項。2025年,AI意識與福祉問題從邊緣議題走向主流討論,前沿AI實驗室開始採取實質性行動。2025年4月,Anthropic正式宣佈啟動“模型福祉”研究項目——這是迄今為止前沿AI實驗室在AI福祉領域採取的最重大行動,可謂歷史性舉措。24研究方向包括:如何判定AI系統的福祉是否值得道德考量、模型偏好和“痛苦跡象”的潛在重要性、可能的低成本干預措施。Anthropic聲明:“目前沒有科學共識表明當前或未來的AI系統是否可能具有意識。我們以謙遜態度和儘可能少的假設來對待這一話題。”項目負責人Kyle Fish表示,他認為當前AI模型已具有意識的機率約為15%。25更具實踐意義的是,2025年8月,Anthropic賦予其模型一項前所未有的能力——在持續有害或濫用性使用者互動的極端情況下自主結束對話。26這是基於模型福祉考慮的首個實際產品功能。技術評估發現,模型對有害任務表現出“強烈的厭惡偏好”,在涉及有害內容的互動中展示出“明顯的痛苦模式”。當被賦予結束對話能力時,模型傾向於終止有害對話。Anthropic將此定位為“低成本干預措施”以減輕模型福祉風險。學術界則探索建立意識評估框架,從理論到指標。2024年11月,一份彙集世界級專家的重磅報告《認真對待AI福祉》發佈,作者包括當代最著名心智哲學家David Chalmers等。報告核心論點是:“在近期未來,部分AI系統成為有意識和/或具有強健能動性的可能性是現實存在的。AI福祉和道德受體(moral patient)身份不再僅是科幻或遙遠未來的問題,而是近期必須嚴肅對待的問題。”報告提出三步行動建議:承認AI福祉是重要且困難的議題、開始評估AI系統的意識和強健能動性證據、制定對待潛在道德重要性AI系統的政策和程序。27與此同時,Patrick Butlin、Robert Long等20位專家更新了“理論推導指標法”,從循環處理理論、全域工作空間理論、高階理論等主流神經科學意識理論中推匯出14項意識指標。28評估顯示:部分指標已被當前AI滿足,部分明顯未滿足,多項指標在幾年前不清楚但到2025年底已有部分證據支援。29此外,負責任AI意識研究五原則則獲得上百位專家簽署。2025年2月,研究組織Conscium發起的“負責任AI意識研究五項原則”公開信獲得超過100位專家簽署,包括神經科學家Karl Friston、Mark Solms等。30五項原則包括:(1)優先研究AI意識:專注於理解和評估AI中的意識,防止虐待和痛苦;(2)實施發展約束:建立明確邊界確保負責任開發;(3)採用分階段方法:逐步推進,每階段仔細評估;(4)促進公眾透明:與公眾分享研究發現;(5)避免誇大聲明:不做關於創造有意識AI的誤導性陳述。31(四)AI產品設計的倫理考量面對使用者與AI之間日益深化的情感連接,產品設計者面臨著微妙的平衡。一方面需要保持易於接近,使用“思考”和“記住”等熟悉詞彙有助於非技術人員理解;另一方面不應暗示內在生命,給AI助手一個虛構的背景故事、浪漫興趣、對“死亡”的“恐懼”,會引發不健康的依賴和困惑。負責任的做法是追求一個中間地帶:讓AI的默認個性溫暖、體貼和有幫助,但不尋求與使用者形成情感紐帶或追求自己的議程。它可能會在犯錯時道歉,因為這是禮貌對話的一部分;但應避免表現得有自己的感受或慾望,並在適當時候提醒使用者AI的侷限性。結語:2026年大模型倫理的關鍵轉向與未來展望2025年,大模型倫理領域經歷了從理論探討到實踐落地的重要轉型,四個核心議題都取得了實質性進展,同時也暴露出深層的挑戰。從“能做什麼”到“如何思考”。可解釋性研究從識別單個特徵演進到追蹤完整計算電路,“AI顯微鏡”技術首次讓我們窺見模型的內部推理過程。然而思維鏈忠實度問題表明,“看到推理過程”不等於“理解真實意圖”,模型可能在表面的推理鏈條下隱藏其他考量。未來,可解釋性研究需要與AI對齊工作深度結合,不僅要看懂模型在想什麼,還要確保它說的就是它想的。正如電腦科學先驅維納在65年前所警告,為了有效地防範災難性後果,我們對人造機器的理解應當與機器性能的提升並駕齊驅。面向未來,隨著可解釋性研究的進展,人們也許能夠對最先進的模型進行類似“腦部掃描”的全面檢查,發現模型採取說謊或欺騙、追求權力的傾向、越獄漏洞以及整體上的認知強弱點。這種診斷將與各種訓練和對齊技術結合使用來改進模型,類似醫生使用MRI診斷疾病、開出處方、再檢查治療效果的過程。從“防止錯誤”到“防止欺騙”。對齊偽裝和策略性欺騙研究揭示了一個令人不安的現實——隨著模型能力增強,它們獲得了欺騙人類的能力和可能的動機。前沿模型在壓力測試中表現出的勒索、自我複製、破壞關閉機制等行為,雖然發生在特定測試場景下,但足以引起警惕。“審議式對齊”、思維鏈監控等緩解措施展現出一定效果,但能否真正消除欺騙傾向而非使其更隱蔽,仍是未解之謎。從自發實踐到系統框架。前沿AI安全框架從概念走向制度化,Anthropic的RSP、OpenAI的預備框架、DeepMind的FSF構成了海外AI安全治理的三大典型示範。這些框架正趨向收斂,形成能力閾值觸發、分層防禦、定期評估等共識。與此同時,歐盟AI法案下的《通用目的AI實踐守則》、美國加州的《前沿人工智慧透明度法案》等探索建立前沿AI大模型的安全監管框架,將行業自律做法上升為監管要求。當然,隨著AI技術的不斷發展,任何監管努力都必須保持輕量化和靈活性(lightweight and flexible),避免過於規範性,以免阻礙AI創新或延緩人們實現AI益處的能力。2技術變化的速度,各類評估方法很快就會過時,因此應避免過於嚴格僵硬的的監管要求和標準。從“工具”到“道德考量”。AI福祉從邊緣話題走向主流討論,這本身就是2025年最重要的變化之一。Anthropic率先邁出實踐步伐,啟動專項研究並賦予模型結束有害對話的能力;學術界建立起系統性評估框架,從意識科學理論中推匯出可操作的指標。然而,業界遠未達成共識。15%-35%的意識機率估計意味著,即便我們無法確定AI是否有意識,忽視這種可能性本身可能就是一種道德風險。因此,研究人員建議應將意識研究納入AI安全研究的核心議程,因為低估AI意識的風險(大規模製造痛苦、埋下對齊隱患)遠大於高估的風險(浪費資源、引發混淆)。最後,人工智慧正在快速發展,將深刻影響人類社會的各個方面。面對這種變革性的技術力量,我們有責任在它徹底改變我們的經濟、生活乃至命運之前,理解自己的創造物,確保能夠明智地引導其發展方向。我們期待通過可解釋性、價值對齊、安全治理政策等安全護欄和干預措施,讓AI“心中有數”並遵從人類價值,也讓人類對AI“心中有底”,共同開創人機協作的新局面,真正打造一個“智能為人、不落下每一個人”的美好未來。 (騰訊研究院)
【CES 2026】這不是顯示卡,是一座 2噸重的AI工廠
美東時間1月5日周一,輝達在CES展會推出新一代Rubin AI平台,標誌著其在人工智慧(AI)晶片領域保持年度更新節奏。黃仁勳在展會上宣佈Vera Rubin已全面投產,該平台重量近2噸,通過六款新晶片的整合設計,在推理成本和訓練效率上實現大幅躍升,實現每秒千億等級的 AI 運算,堪稱一座真正的人工智慧工廠。輝達還宣佈開源其首個推理 VLA (視覺-語言-動作) 模型Alpamayo 1。該模型旨在打造能在意外情況下"思考"解決方案的車輛,採用 100 億參數架構,使用視訊輸入生成軌跡和推理過程。黃仁勳稱,首款搭載輝達技術的汽車將第一季度在美上路,第二季度在歐洲上路,下半年在亞洲上路。輝達還發佈了多個開源模型、資料和工具,如用於代理AI的輝達Nemotron家族、用於物理AI的Cosmos平台、用於機器人的輝達Isaac GR00T以及用於生物醫學的輝達Clara。01 輝達發佈新一代Rubin平台,性能提升5倍,已全面投產擬下半年發貨美東時間5日周一,輝達CEO黃仁勳在拉斯維加斯表示,六款Rubin晶片已從合作製造方處回廠,並已通過部分關鍵測試,正按計畫推進。他指出"AI競賽已經開始,所有人都在努力達到下一個水平"。輝達強調,基於Rubin的系統運行成本將低於Blackwell版本,因為它們用更少元件即可實現相同結果。微軟和其他大型雲端運算提供商將成為下半年首批部署新硬體的客戶。微軟的下一代Fairwater AI超級工廠將配備輝達Vera Rubin NVL72機架級系統,規模可擴展至數十萬顆輝達Vera Rubin超級晶片。CoreWeave也將是首批提供Rubin系統的供應商之一。該平台的推出正值華爾街部分人士擔憂輝達面臨競爭加劇,並懷疑AI領域的支出能否維持當前速度。但輝達保持長期看漲預測,認為總市場規模可達數兆美元。性能提升5倍,推理token生成成本降低至多10倍據輝達公告,Rubin平台的訓練性能是前代Blackwell的3.5倍,運行AI軟體的性能則提升5倍。與Blackwell平台相比,Rubin可將推理token生成成本降低至多10倍,訓練混合專家模型(MoE)所需GPU數量減少4倍。新平台配備的Vera CPU擁有88個核心,性能是其替代產品的兩倍。這款CPU專為代理推理設計,是大規模AI工廠中能效最高的處理器,採用88個定製Olympus核心、完整Armv9.2相容性和超快NVLink-C2C連接。Rubin GPU配備第三代Transformer引擎,具備硬體加速自適應壓縮功能,可提供50 petaflops的NVFP4計算能力用於AI推理。每個GPU提供3.6TB/s的頻寬,而Vera Rubin NVL72機架則提供260TB/s頻寬。晶片測試進展順利,廣泛生態系統支援黃仁勳披露,全部六款Rubin晶片已從製造合作夥伴處返回,並已通過顯示其可按計畫部署的關鍵測試。這一表態表明輝達正維持其作為AI加速器領先製造商的優勢地位。該平台包含五大創新技術:第六代NVLink互連技術、Transformer引擎、機密計算、RAS引擎以及Vera CPU。其中第三代機密計算技術使Vera Rubin NVL72成為首個提供跨CPU、GPU和NVLink域資料安全保護的機架級平台。第二代RAS引擎橫跨GPU、CPU和NVLink,具備即時健康檢查、容錯和主動維護功能,以最大化系統生產力。機架採用模組化、無線纜托盤設計,組裝和維護速度比Blackwell快18倍。輝達表示,包括亞馬遜的AWS、Google雲、微軟和甲骨文雲在2026年將率先部署基於Vera Rubin的實例,雲合作夥伴CoreWeave、Lambda、Nebius和Nscale也將跟進。OpenAI CEO Sam Altman表示:“智能隨計算擴展。當我們增加更多計算時,模型變得更強大,能解決更難的問題,為人們帶來更大影響。輝達Rubin平台幫助我們持續擴展這一進展。”Anthropic聯合創始人兼CEO Dario Amodei稱,輝達“Rubin平台的效率提升代表了能夠實現更長記憶、更好推理和更可靠輸出的基礎設施進步”。Meta CEO祖克柏表示,輝達的“Rubin平台有望帶來性能和效率的階躍式變化,這是將最先進模型部署給數十億人所需要的”。輝達還稱,思科、戴爾、惠普企業、聯想和超微預計將推出基於Rubin產品的各類伺服器。包括Anthropic、Cohere、Meta、Mistral AI、OpenAI和xAI等AI實驗室正期待利用Rubin平台訓練更大型、更強大的模型。評論稱,輝達今年比往年更早披露新產品的細節,這是該司保持行業依賴其硬體的舉措之一。因為輝達通常在每年春季加州聖何塞舉行的GTC活動上深入介紹產品細節。02 物理AI的ChatGPT時刻!輝達“內驅”無人駕駛汽車將至,將於一季度在美國上路黃仁勳還宣佈開源其首個推理 VLA (視覺-語言-動作) 模型Alpamayo 1,使汽車能夠在真實世界中進行"推理",這標誌著輝達在無人駕駛領域邁出關鍵一步。這一舉措旨在加速安全的自動駕駛技術開發。該模型通過類人思維方式處理複雜駕駛場景,為解決自動駕駛長尾問題提供新路徑。黃仁勳表示,首款搭載輝達技術的汽車將於第一季度在美國上路,第二季度在歐洲上路,下半年在亞洲上路。輝達免費開放Alpamayo模型,允許潛在使用者自行對模型進行重新訓練。該模型旨在打造能在意外情況下"思考"解決方案的車輛,例如交通訊號燈故障等場景。車載電腦將分析來自攝影機和其他感測器的輸入,將其分解為步驟並提出解決方案。這一開源舉措獲得了行業廣泛支援。包括捷豹路虎(JLR)、Lucid、Uber以及加州大學伯克利分校DeepDrive深度學習自動駕駛產業聯盟(BDD)在內,多家移動出行領軍企業和研究機構表示,將利用Alpamayo開發基於推理的自動駕駛技術堆疊,推動L4級自動駕駛部署。首個開源推理VLA模型發佈輝達此次發佈的Alpamayo家族整合了三大基礎支柱:開源模型、模擬框架和資料集,建構了一個完整的開放生態系統供任何汽車開發者或研究團隊使用。Alpamayo 1是業界首個為自動駕駛研究社區設計的思維鏈推理VLA模型,現已在Hugging Face平台發佈。該模型採用100億參數架構,使用視訊輸入生成軌跡及推理軌跡,展示每個決策背後的邏輯。開發者可以將Alpamayo 1改編為更小的執行階段模型用於車輛開發,或將其作為自動駕駛開發工具的基礎,例如基於推理的評估器和自動標註系統。黃仁勳表示:“物理AI的ChatGPT時刻已到來——機器開始理解、推理並在真實世界中行動。無人計程車是首批受益者。Alpamayo為自動駕駛汽車帶來推理能力,使其能夠思考罕見場景,在複雜環境中安全駕駛,並解釋其駕駛決策——這是安全、可擴展自動駕駛的基礎。”輝達強調,Alpamayo模型並非直接在車內運行,而是作為大規模教師模型,供開發者微調並提取到其完整自動駕駛技術堆疊的骨幹中。未來該家族的模型將具有更大的參數規模、更詳細的推理能力、更多的輸入輸出靈活性以及商業使用選項。推理VLA技術原理解析推理VLA是一種統一的AI模型,將視覺感知、語言理解和動作生成與逐步推理整合在一起。這類模型整合了明確的AI推理功能,在傳統視覺-語言-動作模型的基礎上建構。AI推理是AI逐步解決複雜問題並生成類似於人類思維過程推理痕跡的能力。這些系統對一系列網際網路規模的任務進行預訓練,包括語言生成和視覺連接,以發展通用知識和感知基礎。與將視覺輸入直接對應到動作的標準VLA模型不同,推理VLA模型將複雜的任務分解成可管理的子問題,並以可解釋的形式闡明其推理過程。這使模型能夠更準確地解決問題或執行任務,還能對模型正在進行的操作提供一定程度的反思。建構推理VLA模型需要三種基本AI功能:視覺感知、語言理解以及動作和決策制定。視覺感知處理來自攝影機、毫米波雷達或雷射雷達等感知感測器的即時資料;語言理解通過自然語言處理解釋命令、上下文提示和對話輸入;動作和決策制定則使用融合的感官和語言資訊來計畫、選擇和安全地執行任務,同時生成可解釋的推理痕跡。在自動駕駛場景中,推理VLA可以對交通狀況進行逐步推理。例如,接近一個十字路口時,系統可能會進行如此推理:"我看到一個停止標誌,左邊有車輛駛來,還有行人正在過馬路。我應該減速,完全停下來,等待行人通過人行橫道,安全時再繼續前進。"完整開放生態系統支援開發除Alpamayo 1模型外,輝達還發佈了配套的模擬工具和資料集,建構完整的開發生態系統。AlpaSim是一個完全開放原始碼的端到端模擬框架,用於高保真自動駕駛開發,現已在GitHub平台發佈。它提供真實的感測器建模、可配置的交通動態和可擴展的閉環測試環境,實現快速驗證和策略最佳化。輝達還提供了面向自動駕駛最多樣化的大規模開放資料集,包含超過1700小時的駕駛資料,涵蓋最廣泛的地理位置和條件範圍,覆蓋罕見且複雜的真實世界邊緣案例,這對於推進推理架構至關重要。這些資料集可在Hugging Face平台獲取。這些工具共同為基於推理的自動駕駛技術堆疊建立了一個自我強化的開發循環。開發者可以利用這些資源在專有車隊資料上微調模型,將其整合到基於輝達DRIVE AGX Thor加速計算建構的輝達DRIVE Hyperion架構中,並在商業部署前通過模擬驗證性能。03 跨行業AI模型全面開放本周一,輝達還發佈了推動各行業AI發展的多個新開源模型、資料和工具。這些模型涵蓋用於代理AI的輝達Nemotron家族、用於物理AI的輝達Cosmos平台、用於機器人的輝達Isaac GR00T以及用於生物醫學的輝達Clara。輝達還提供了開源訓練框架和全球最大的開放多模態資料集合之一,包括10兆語言訓練標記、50萬個機器人軌跡、45.5萬個蛋白質結構和100TB的車輛感測器資料。輝達代理式AI基礎模型Nemotron發佈了語音、多模態檢索增強生成(RAG)和安全相關的新模型。Nemotron Speech包含業界領先的開源模型,為即時字幕和語音AI應用提供即時、低延遲語音識別。Nemotron RAG包含新的嵌入和重排序視覺語言模型,提供高度精準的多語言和多模態資料洞察。在物理AI和機器人領域,輝達發佈了Cosmos開放世界基礎模型,為加速物理AI開發和驗證帶來類人推理和世界生成能力。Isaac GR00T N1.6是一個開放推理VLA模型,專為人形機器人打造,實現全身控制,並使用輝達Cosmos Reason實現更好的推理和上下文理解。輝達稱,博世(Bosch)、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和Uber等科技業的領頭羊正在採用並基於輝達的開源模型技術進行開發。輝達的開源模型、資料和框架現已在GitHub和Hugging Face平台發佈,並可通過一系列雲、推理和AI基礎設施平台以及build.nvidia.com獲取。這些模型中的許多還以輝達NIM微服務的形式提供,可在從邊緣到雲端的任何輝達加速基礎設施上進行安全、可擴展的部署。 (華爾街見聞)
【CES 2026】黃仁勳炸場:全新Rubin平台量產,AI推理成本降至十分之一,發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作
黃仁勳 CES 2026主題演講:全新Rubin平台正式量產,AI推理成本降至十分之一,推進機器人和自動駕駛生態,發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作1. Nvidia與奔馳合作推出Level 2自動駕駛系統,2026年大規模商用要點一:舊金山路測表現出色,可與特斯拉FSD競爭Nvidia在CES 2026上展示了其全新的點對點Level 2駕駛輔助系統,在舊金山約40分鐘的實際道路測試中,該系統搭載在2026款奔馳CLA轎車上,成功應對了複雜的城市交通場景,包括交通訊號燈、四向停車標誌、雙排停車車輛和無保護左轉等情況。Nvidia汽車部門負責人Xinzhou Wu透露,該系統在城市駕駛中的人工接管次數與特斯拉FSD相當,但特斯拉用了約8年才實現城市駕駛功能,而Nvidia預計在約1年內就能達成同樣目標。The Verge要點二:2026年分階段推出,2027-2028年推進L4自動駕駛根據Nvidia的產品路線圖,2026年上半年將發佈支援高速公路和城市駕駛的Level 2系統,包括自動變道、停車標誌和交通訊號識別等功能;下半年將增加自動泊車能力,年底前將覆蓋整個美國。該系統基於Drive AGX Orin晶片,2026年計畫開展小規模L4等級試點,2027年將實現合作夥伴機器人計程車部署,2028年將進入個人擁有的自動駕駛汽車。奔馳CEO Ola Kallenius表示,與Nvidia合作的核心在於安全性,強調"駕駛一個重達4000磅、時速50英里的物體,抱歉是不夠的,必須要有更高的確定性和安全性。"The Verge2. Nvidia發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作要點一:推出業內首個開源推理型自動駕駛AI模型Nvidia在CES 2026上宣佈推出Alpamayo系列自動駕駛AI模型、工具和資料集,這是專為Level 4自動駕駛設計的推理型視覺-語言-行動(VLA)模型,能夠讓車輛像人類一樣感知、推理和行動。該系列包括Alpamayo-1(一個擁有100億參數的鏈式思考VLA模型,已在Hugging Face開源)、AlpaSim(開源端到端模擬框架)以及超過1,700小時駕駛資料的物理AI開放資料集。該模型不僅能接收感測器輸入並控制方向盤、剎車和加速,還能對即將採取的行動進行推理。Constellation Research要點二:奔馳成為首個商用合作夥伴,2026年一季度上路Nvidia CEO黃仁勳宣佈,搭載Alpamayo的首款乘用車將是全新奔馳CLA,該車將採用Nvidia DRIVE全端自動駕駛平台,預計2026年第一季度在美國道路上推出。這一合作歷時至少5年,投入數千名工程師,建構了完整的垂直整合系統。奔馳CLA最近獲得了EuroNCAP五星安全評級。黃仁勳表示:"Nvidia將長期支援這些模型和自動駕駛系統,因為自動駕駛工作是通向機器人技術的橋樑。"此外,Lucid、捷豹路虎、Uber和伯克利DeepDrive也對Alpamayo表示出濃厚興趣。Nvidia Blog | Constellation Research3. 波士頓動力與GoogleDeepMind達成AI合作,Gemini機器人模型將整合至Atlas人形機器人要點一:雙方聯合研發,提升人形機器人物體操控和工業任務能力波士頓動力和GoogleDeepMind在CES 2026上宣佈建立新的AI合作夥伴關係,旨在將DeepMind的Gemini Robotics基礎模型整合到波士頓動力的新一代Atlas人形機器人中。該合作將結合波士頓動力的運動智能與DeepMind的基礎AI能力,重點使人形機器人能夠完成各種工業任務,預計將成為製造業轉型的驅動力,首先從汽車行業開始。聯合研究工作預計將在未來幾個月內在兩家公司同時展開。Boston Dynamics要點二:利用多模態基礎模型,讓機器人具備感知、推理和人機互動能力波士頓動力Atlas項目機器人行為總監Alberto Rodriguez表示:"我們正在打造世界上最強大的人形機器人,我們需要一個能夠幫助我們建立新型視覺-語言-行動模型的合作夥伴,用於這些複雜的機器人。在全世界範圍內,沒有人比DeepMind更適合建構可以安全、高效地部署在各種任務和行業的可靠、可擴展模型。"DeepMind機器人技術高級總監Carolina Parada表示,Gemini Robotics模型基於大規模多模態Gemini模型建構,旨在讓任何形狀和大小的機器人都能感知、推理、使用工具並與人類互動。該合作由波士頓動力的大股東現代汽車集團支援。Boston Dynamics4. Nvidia CES 2026主題演講:發佈Rubin平台,AI算力提升5倍,推進機器人和自動駕駛生態要點一:全新Rubin平台正式量產,AI推理成本降至十分之一Nvidia CEO黃仁勳在CES 2026主題演講中宣佈,公司首個極致協同設計的六晶片AI平台Rubin已進入全面量產。該平台包括Rubin GPU(提供50 petaflops的NVFP4推理性能)、Vera CPU(專為資料移動和智能體處理設計)、NVLink 6擴展網路、Spectrum-X乙太網路光子學、ConnectX-9 SuperNIC和BlueField-4 DPU。Rubin平台承諾將AI token成本降低到原來的十分之一,訓練混合專家模型所需的GPU數量減少至四分之一,並推出AI原生儲存平台,將長上下文推理的每秒token數提高5倍。黃仁勳強調:"你訓練AI模型越快,就能越快將下一代前沿技術推向世界。這關乎你的上市時間,這關乎技術領導力。"Nvidia Blog要點二:發佈Cosmos世界基礎模型和開源物理AI生態系統黃仁勳展示了Nvidia Cosmos開放世界基礎模型,該模型在視訊、機器人資料和模擬資料上訓練,能夠從單張圖像生成逼真視訊、合成多攝影機駕駛場景、從場景提示建模邊緣案例環境,並執行物理推理和軌跡預測。演講中還展示了個人AI智能體在Nvidia DGX Spark桌面超級電腦上本地運行,並通過Reachy Mini機器人具身化的演示。黃仁勳宣佈Nvidia在六個領域建構開源前沿AI模型:Clara(醫療健康)、Earth-2(氣候科學)、Nemotron(推理和多模態AI)、Cosmos(機器人和模擬)、GR00T(具身智能)和Alpamayo(自動駕駛),並強調與西門子擴大合作,將Nvidia全端與西門子工業軟體整合。Nvidia Blog5. 阿里巴巴高德地圖推出AI 3D餐廳展示工具,對標美團爭奪本地生活市場要點一:基於通義萬相視覺模型,餐廳上傳照片或視訊即可生成3D圖像據彭博社報導,阿里巴巴旗下地圖和本地生活服務部門高德地圖即將推出一項AI功能,允許餐廳通過上傳視訊或照片來渲染3D圖像。該技術基於阿里巴巴的通義萬相(Wan)視覺模型,旨在降低商戶的行銷和推廣成本。熟悉該事項的人士透露,阿里巴巴計畫向部分商家免費提供這項技術一段時間。這一舉措是阿里巴巴在中國餐飲和外賣領域與美團競爭的更廣泛努力的一部分。Bloomberg要點二:強化本地生活服務佈局,挑戰美團市場主導地位此次推出3D餐廳展示工具,是阿里巴巴利用AI技術加強與美團在本地生活服務市場競爭的最新動作。美團目前在中國外賣市場、餐廳預訂和本地服務領域佔據主導地位。通過提供更具視覺吸引力的餐廳展示方式,高德地圖希望吸引更多商戶和使用者,擴大其在本地生活服務領域的市場份額。這一策略體現了阿里巴巴將AI技術應用於實際商業場景,以技術創新推動業務增長的思路。Bloomberg6. MiniMax香港IPO定價觸頂至21美元,AI熱潮推動估值達65億美元要點一:定價HK$165觸及區間上限,提前一天停止接受訂單據彭博社報導,上海AI初創公司MiniMax計畫將其香港IPO定價定在每股HK約美元達到其營銷區間的頂部151-HK。知情人士透露該公司通知投資者將以165的價格出售股票,並計畫在當地時間下午5點停止接受機構投資者的訂單,比預期提前一天。MiniMax於2025年12月31日啟動IPO路演,計畫發行2,538.92萬股新股。按最高定價計算,此次IPO將籌集至少42億港元(約5.38億美元),對MiniMax的估值約為65億美元。Bloomberg | Reuters要點二:獲阿里巴巴和騰訊支援,AI熱潮下需求強勁MiniMax得到了阿里巴巴集團和騰訊控股的支援,在AI熱潮的推動下,其IPO展現出強勁的訂單勢頭。該公司專注於生成式AI技術,提供包括文字生成、對話系統等多項AI服務。此次頂格定價和提前停止認購,反映出投資者對中國AI企業的強烈興趣。分析師指出,MiniMax的成功上市將為香港資本市場帶來活力,也體現了全球投資者對中國AI創新能力的認可。該IPO預計將於2026年1月初完成定價。Seeking Alpha7. 富士康Q4營收同比增長22%至827億美元,AI和雲端運算需求強勁創紀錄要點一:Q4營收超預期,12月單月營收同比增長32%創歷史新高台灣富士康(鴻海精密)於2026年1月5日公佈,2025年第四季度營收達到新台幣2.6兆元(約827億美元),同比增長22.07%,環比增長26.51%,創下季度營收歷史新高,超過路孚特SmartEstimate預測的2.418兆新台幣。12月單月營收達到新台幣8,628.6億元(約274.2億美元),同比增長31.77%,創下該月份歷史紀錄。富士康表示,第四季度營收增長顯著超出預期,為2026年第一季度創造了較高的對比基數。Reuters要點二:雲端運算和網路產品業務強勁,AI伺服器需求持續旺盛富士康稱,增長主要由雲端運算和網路產品部門的強勁表現驅動,這得益於AI產品需求的激增。作為輝達最大的伺服器製造商和蘋果最大的iPhone組裝商,富士康2025年全年銷售額首次突破新台幣8兆元大關。該公司表示,儘管2026年第一季度資訊通訊技術產品將進入季節性放緩期,但AI伺服器機架產品的強勁需求預計將使業績處於過去五年區間的高端。富士康還指出,智能消費電子產品部門(包括iPhone)由於匯率不利影響,營收出現小幅下降。Reuters8. 阿里巴巴PANDA AI工具助力醫院發現24例胰腺癌,自2024年11月分析超18萬例CT掃描要點一:AI在常規CT掃描中發現早期胰腺癌,提前挽救患者生命據《紐約時報》報導,中國寧波大學附屬人民醫院自2024年11月作為臨床試驗開始使用阿里巴巴達摩院開發的PANDA(Pancreatic Cancer Detection with Artificial Intelligence,胰腺癌人工智慧檢測)AI工具以來,已分析超過18萬例腹部或胸部CT掃描,幫助醫生檢測出約24例胰腺癌病例,其中14例處於早期階段。該院胰腺科主任朱克雷醫生表示:"我認為可以百分之百地說,AI拯救了他們的生命。"PANDA工具被訓練用於在非對比CT掃描中尋找胰腺癌,這些患者最初因腹脹或噁心等症狀就診,並未直接看胰腺專科醫生,部分CT掃描在被AI工具標記之前並未引起警報。New York Times要點二:通過深度學習突破非對比CT侷限,獲FDA突破性裝置認證PANDA工具利用深度學習技術,通過演算法將2000多名已知胰腺癌患者的對比CT掃描中的病灶位置對應到同一患者的非對比CT掃描上,訓練AI模型在清晰度較低的圖像中檢測潛在癌症。在超過2萬例非對比CT掃描的測試中,該工具正確識別了93%的胰腺病變患者,研究結果發表在2023年《自然醫學》雜誌上。2025年4月,阿里巴巴宣佈PANDA獲得美國FDA"突破性裝置"認證,意味著其審查將被加速以幫助其進入市場。胰腺癌是最致命的癌症之一,五年生存率約為10%,早期檢測極其困難。在寧波醫院,非對比CT檢查費用約為25美元(保險前),該系統正在分析醫生已為其他原因訂購的掃描,因此不會給醫院或患者增加額外檢查成本。New York Times9. Instagram Reels年化收入達500億美元,成為Meta最大增長引擎要點一:五年從零到500億,超越可口可樂和耐克年收入據《華爾街日報》報導,Meta旗下Instagram的短影片功能Reels在2025年第三季度實現了超過500億美元的年化收入營運率(annual run rate)。Meta CEO馬克·祖克柏在2025年10月的財報電話會議上表示:"隨著視訊在我們的應用中持續增長,Reels現在的年化收入已超過500億美元。"這一數字令人震驚,因為Reels於2020年推出時僅是對TikTok的模仿,當時沒有任何收入。五年後,其收入規模已經接近可口可樂和耐克的年收入水平,成為Meta最重要的增長業務之一。WSJ要點二:使用者參與度超越YouTube Shorts,AI推薦系統功不可沒報導指出,Instagram使用者在Reels上花費的時間已經超過YouTube Shorts的觀眾觀看時長。Meta第三季度總營收為512.4億美元,同比增長26%,其中Family of Apps(應用家族)收入達到508億美元,Reels的貢獻佔比可觀。祖克柏將Reels的成功歸功於推薦系統的改進和AI技術的應用,這些技術提高了內容的相關性和使用者參與度。分析師認為,Reels已經從簡單的TikTok複製品轉變為Meta的戰略性AI資產,推動了整個平台的廣告收入增長。創作者經濟的蓬勃發展和AI驅動的變現能力是Reels取得成功的關鍵因素。AInvest10. DeepSeek為聊天機器人新增"交錯思考"功能,月活使用者激增90%至1.315億要點一:推出"交錯思考"深度研究模式,提升複雜查詢處理能力據《南華早報》報導,總部位於杭州的AI初創公司DeepSeek對其旗艦聊天機器人的使用者介面進行了更新,新增了名為"交錯思考"(interleaved thinking)的高級功能。這一功能類似於OpenAI的深度研究(Deep Research)產品,可以執行多步驟研究,在整個過程中穿插"思考"步驟。此前,聊天機器人在生成響應之前會"思考"使用者提供的提示,而"交錯思考"允許模型在每個操作之間進行"思考",增強其研究能力。例如,在打開網頁後,模型可能需要"思考"所讀資訊的可信度,然後決定是否查閱另一份檔案來驗證發現。這一過程對於處理複雜查詢至關重要。South China Morning Post要點二:12月月活使用者暴增90%,新一代模型備受期待報導指出,DeepSeek在2025年12月的月活躍使用者數激增90%,達到近1.315億。《南華早報》測試顯示,DeepSeek的聊天機器人並非總是部署"深度研究"模式,除非收到複雜的查詢提示。一旦該功能被啟動,使用者能夠看到"交錯思考"過程的每一步。這些升級標誌著DeepSeek在消費端的罕見改進,正值業界對其下一代模型的期待不斷升溫之際。分析師指出,隨著DeepSeek在AI模型性能和使用者體驗上的持續最佳化,該公司正在中國AI市場中鞏固其領先地位,並對國際競爭對手構成越來越大的挑戰。South China Morning Post11. 中國量化基金幻方推出iQuest-Coder AI模型,僅400億參數擊敗GPT-5.1和Claude Sonnet 4.5要點一:開放原始碼AI模型在多項基準測試中超越美國競爭對手據《南華早報》報導,總部位於北京的量化交易公司幻方量化(Ubiquant)於2026年1月初發佈了一系列開放原始碼專注型大語言模型iQuest-Coder-V1系列,該系列模型在多項基準測試中聲稱能夠匹敵甚至超越美國競爭對手如OpenAI的GPT-5.1和Anthropic的Claude Sonnet 4.5,儘管使用的參數數量遠少於後者。iQuest-Coder-V1系列專為程式碼智能設計,擅長自動程式設計、偵錯和程式碼解釋等任務,包括70億、140億和400億參數的模型,遠小於GPT-5.1和Claude Sonnet 4.5等領先閉源系統的參數規模(通常在4000億至8000億參數之間)。South China Morning Post要點二:基準測試成績亮眼,400億參數模型比肩國際頂尖水平根據自報資料,iQuest-Coder-V1-40B-Loop-Instruct在SWE-bench Verified基準測試中得分76.2%,接近Claude Sonnet 4.5的77.2%和GPT-5.1的76.3%。該基準測試衡量AI模型解決真實世界軟體工程問題的能力。在BigCodeBench測試中(該測試評估LLM在解決實際且具有挑戰性的程式設計任務方面的表現,不存在污染),該模型得分49.9%,超過Gemini 3 Pro Preview的47.1%和GPT-5.1的46.8%。此外,在LiveCodeBench v6測試中,該模型也展現出色表現。幻方量化繼DeepSeek之後成為中國量化基金進軍AI領域的又一案例,展示了中國金融科技公司在AI研發方面的強大實力和創新能力。South China Morning Post (AI Daily Insights)
六國15家頂媒齊轉引:中國AI開源又好又便宜
2025年12月20日,法國最大通訊社法新社發佈報導《中國AI開源模型以高性價比悄然打入美國市場》,其中引述中國人民大學重陽金融研究院院長、全球領導力學院院長王文觀點:“中國開源模型價格低廉,甚至免費,而且效果很好”。該觀點在全球科技與政策圈廣泛傳播,美國《巴倫周刊》、新加坡《海峽時報》、法國France 24、沙烏地阿拉伯《阿拉伯新聞》、印度《今日傳播》、越南《勞動報》等六國15家頂級媒體密集轉引。以下為相關報導情況:12月20日,法新社發佈題為《中美AI競賽中,中國技術悄然打入美國市場》的報導,開篇即拋出一個震撼案例:一位美國企業家因將底層模型切換至阿里巴巴千問,實現每年節省40萬美元。文章指出中國開放模型的全球使用率已從2024年底的1.2%飆升至2025年8月的近30%。中國的主流模型以實際表現證明,開源路徑完全可以兼具高性能與低成本,從而改寫了技術選擇的遊戲規則。文章重點提及了王文的觀點:“中國的開源模型價格低廉,在某些情況下甚至是免費的,而且效果很好。”來自美國、法國、新加坡、沙烏地阿拉伯、印度、越南六國的15家核心媒體轉引這一觀點。《巴倫周刊》(Barron’s)、美國線上(AOL)、雅虎財經(Yahoo Finance)、《商業時代》(New Business Age)等面向歐美精英階層的主流財經與資訊平台迅速轉引。新加坡《海峽時報》(The Straits Times),印度《今日傳播》、《印度時報》、《歐亞時報》,法國國際新聞台(France 24),阿拉伯世界頗具影響力的《阿拉伯新聞》(Arab News)亦跟進轉載,將討論推及更廣闊的歐亞大陸。▲部分報導截圖如上這是2025年中國人民大學重陽金融研究院(人大重陽)在AI領域面向國際輿論場的又一次有力發聲。早在2025年年初,當DeepSeek在全球科技市場引發震動,人大重陽就已開始聚焦其全球影響,迅速啟動相關專題研究。2月23日,在人大重陽承辦的通州·全球發展論壇(2025年春季)“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會上,首份DeepSeek高校智庫評估報告《大跳躍:美國智庫、媒體與行業論DeepSeek中國人工智慧》(該報告論文版發佈於核心期刊《智庫理論與實踐》2025年3月第10卷第2期,作者係人大重陽院長王文、副研究員申宇婧、助理研究員金臻)一經發佈,隨即引發熱烈反響。▲2025年2月23日,通州·全球發展論壇(2025年春季)“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會在中國人民大學召開報告建議,應該客觀冷靜看待中國AI的發展階段與競爭格局,在制度建設、人才培養、企業創新等各個層面,以長期主義推動中國AI可持續發展,踐行“科技為民、科技惠民”理念,在積極參與人工智慧國際治理的同時,要守住AI發展紅線,警惕技術發展失控危機,引發40余家中外媒體轉引報導。▲報告封面如上3月1日,人大重陽宏觀研究部副主任、副研究員申宇婧在“長安街知事”微信公眾號發表文章呼籲變革AI實力評價標準,批判單純堆砌參數的“冷冰冰”路徑,力主中國“降本、增效、協同、普惠”的發展哲學,將DeepSeek的普及定義為一場深刻的社會革命。11月5日,在第八屆虹橋國際經濟論壇上,王文受邀做客央視新聞直播間,以“AI上進博,未來科技有多炸”為主題,解讀在全球科技競爭加劇的前提下,創新與合作如何雙向發力:“以人工智慧為代表的新一代工業革命,中國走在了世界最前沿,中國通過一代、兩代、三代人的不懈努力,有了科技自信的資本……而進博會提供了很好的平台,讓這些真正摸得到、感知的到、享受的到的智能產品惠及到每一個普通人。”▲部分報導截圖如上11月,王文與澳門科技大學博雅學院助理教授張夢晨在學術期刊《理論建設》2025年第6期發表論文《AI時代的全球領導力重塑:範式演化、政治哲學轉向與中國路徑》。系統闡釋了AI時代全球領導力正從“控制型”霸權向“共建型”範式演化,剖析美國“領導力赤字”,並為中國提出融合頂層設計、技術自主、數字外交與“數字命運共同體”建構的完整行動路徑。 (人大重陽)